doc2vec 相关问题

Doc2Vec是一种无监督算法,用于转换向量中的文档(“密集嵌入”)。它基于“Paragraph Vector”论文,并在Gensim Python库和其他地方实现。该算法可以在“Distributed Bag Of Words”模式下工作(PV-DBOW,其工作方式与Word2Vec中的skip-gram模式类似)或“分布式存储器”模式(PV-DM,更类似于CBOW模式)在Word2Vec。)

WikiCorpus在gensim中执行什么文本处理?

我使用gensim在Wikipedia语料库上训练了doc2vec模型,我希望从不同的文档中检索向量。我想知道当我...时,WikiCorpus函数处理了什么文本。

回答 1 投票 1

与使用doc2vec模型的文档相比,如何计算单词或几个单词的相似度?

在gensim中我有一个训练有素的doc2vec模型,如果我有一个文档和一个单词或两三个单词,那么计算单词与文档相似性的最佳方法是什么?我......

回答 1 投票 0

来自整个doc2vec模型的单词向量与来自特定文档的单词向量

我训练了一个gensim的Doc2Vec模型,默认的word2vec训练(dm = 1)。我可以从model.wv.vectors中的全局模型中获取单词向量。但是文档说的是同一个词(“离开”......

回答 1 投票 0

如何在使用Doc2vec后解释集群结果?

我正在使用doc2vec来转换我的追随者在矢量表示中的前100条推文(比如说v1 ..... v100)。之后我使用矢量表示来做K-Means聚类。 model = ...

回答 3 投票 0

解释Doc2Vec向量集群表示

我是Doc2Vec的新手,请忍受天真的问题。我已经生成了Doc2vector得分,即使用'Paragraph Vector'算法。我有一个每个文档的数组输出。我用的是模特....

回答 1 投票 0

在维基百科上找到预训练的doc2vec模型或谷歌新闻等大型文章数据集?

我很难在doc2vec模型上训练维基百科转储,没有经验将服务器设置为本地机器是不可能的,因为它需要进行培训。我找不到......

回答 1 投票 0

gensim Doc2Vec词不在词汇表中

我正在训练一个带有txt文件'full_texts.txt'的doc2vec gensim模型,其中包含~1600个文档。一旦我训练了模型,我希望在单词和句子上使用相似性方法。但是,......

回答 1 投票 2

Doc2Vec - 在测试数据中查找文档相似性

我正在尝试使用训练数据训练doc2vec模型,然后使用训练有素的doc2vec模型找到测试数据中测试数据中每个文档的相似性。 ...

回答 2 投票 0

MemoryError使用Python和Doc2Vec

我正在尝试为大量数据训练Doc2vec。我有一个总共72GB的20k文件,并写下这段代码:def train():onlyfiles = [f for listdir(mypath)中的f,如果是isfile(join(mypath,f))] ...

回答 1 投票 0

doc2vec使用gensim库导致不一致的相似性

我正在使用Gensim库来训练一些使用doc2vec的数据文件,同时尝试使用方法model.docvecs.most_similar(“file”)来测试其中一个文件的相似性,我总是得到所有...

回答 2 投票 1

我想根据它们的语义来对一些句子进行分类。我如何在这里使用Doc2Vec?还是有比这更好的方法?

我想对从源中提取的各种评论实现doc2vec。我想将这些评论分类到用户定义的不同类中。我怎样才能做到这一点?

回答 1 投票 0

doc2vec / gensim - 在时代中改变句子的问题

我正在尝试使用优秀的教程,在这里和这里开始使用word2vec和doc2vec,并尝试使用代码示例。我只在line_clean()方法中添加了删除标点符号,...

回答 1 投票 1

训练doc2Vec模型实际需要多少数据?

我一直在使用gensim的库来训练doc2Vec模型。在尝试不同的数据集进行培训后,我对于什么应该是理想的训练数据大小相当困惑...

回答 1 投票 2

哪种方式恢复doc2vec模型效率更高?

在训练doc2vec模型之后,我想在另一个模块中重用文档向量。似乎有两种方法可以实现这一点:保存模型并将doc-vectors保存为字典。我只是好奇 ...

回答 1 投票 0

如何使用Gensim Doc2vec infer_vector()进行大型DataFrame?

我使用Gensim的doc2vec为大型语料库创建了文档向量。 sentence = gensim.models.doc2vec.TaggedLineDocument('file.csv')model = gensim.models.doc2vec.Doc2Vec(句子,大小= 10,...

回答 2 投票 2

改进Gensim Doc2vec结果

我尝试在600000行句子上应用doc2vec:代码如下:来自gensim import models model = models.Doc2Vec(alpha = .025,min_alpha = .025,min_count = 1,workers = 5)model.build_vocab(res)。 ..

回答 1 投票 4

doc2vec - 如何更快地推断文档向量?

我已经训练了大约2300个段落(每个2000-12000个单词)的段落向量,每个段落的矢量大小为300.现在,我需要推断大约100,000个句子的段落向量,我有...

回答 1 投票 3

doc2vec - python中doc2vec training和infer_vector()的输入格式

在gensim中,当我给一个字符串作为训练doc2vec模型的输入时,我得到这个错误:TypeError('不知道如何处理uri%s'%repr(uri))我提到了这个问题Doc2vec:.. 。

回答 1 投票 2

Doc2Vec.infer_vector每次都会在特定的训练模型上保持不同的结果

我正在尝试遵循这里提到的官方Doc2Vec Gensim教程 - https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb我将第10行的代码修改为.. 。

回答 1 投票 6

设置批量大小*和*神经网络的训练迭代次数?

我正在使用KNIME Doc2Vec Learner节点来构建Word嵌入。我知道Doc2Vec是如何工作的。在KNIME中,我可以选择设置参数Batch Size:每个批次使用的单词数。 ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.