doc2vec 相关问题

Doc2Vec是一种无监督算法，用于转换向量中的文档（“密集嵌入”）。它基于“Paragraph Vector”论文，并在Gensim Python库和其他地方实现。该算法可以在“Distributed Bag Of Words”模式下工作（PV-DBOW，其工作方式与Word2Vec中的skip-gram模式类似）或“分布式存储器”模式（PV-DM，更类似于CBOW模式）在Word2Vec。）

WikiCorpus在gensim中执行什么文本处理？

我使用gensim在Wikipedia语料库上训练了doc2vec模型，我希望从不同的文档中检索向量。我想知道当我...时，WikiCorpus函数处理了什么文本。

python gensim doc2vec

回答 1 投票 1

与使用doc2vec模型的文档相比，如何计算单词或几个单词的相似度？

在gensim中我有一个训练有素的doc2vec模型，如果我有一个文档和一个单词或两三个单词，那么计算单词与文档相似性的最佳方法是什么？我......

python gensim doc2vec

回答 1 投票 0

来自整个doc2vec模型的单词向量与来自特定文档的单词向量

我训练了一个gensim的Doc2Vec模型，默认的word2vec训练（dm = 1）。我可以从model.wv.vectors中的全局模型中获取单词向量。但是文档说的是同一个词（“离开”......

gensim word2vec doc2vec

回答 1 投票 0

如何在使用Doc2vec后解释集群结果？

我正在使用doc2vec来转换我的追随者在矢量表示中的前100条推文（比如说v1 ..... v100）。之后我使用矢量表示来做K-Means聚类。 model = ...

python scikit-learn cluster-analysis gensim doc2vec

回答 3 投票 0

解释Doc2Vec向量集群表示

我是Doc2Vec的新手，请忍受天真的问题。我已经生成了Doc2vector得分，即使用'Paragraph Vector'算法。我有一个每个文档的数组输出。我用的是模特....

text-mining word2vec doc2vec

回答 1 投票 0

在维基百科上找到预训练的doc2vec模型或谷歌新闻等大型文章数据集？

我很难在doc2vec模型上训练维基百科转储，没有经验将服务器设置为本地机器是不可能的，因为它需要进行培训。我找不到......

python nlp gensim word2vec doc2vec

回答 1 投票 0

gensim Doc2Vec词不在词汇表中

我正在训练一个带有txt文件'full_texts.txt'的doc2vec gensim模型，其中包含~1600个文档。一旦我训练了模型，我希望在单词和句子上使用相似性方法。但是，......

python nlp gensim word2vec doc2vec

回答 1 投票 2

Doc2Vec - 在测试数据中查找文档相似性

我正在尝试使用训练数据训练doc2vec模型，然后使用训练有素的doc2vec模型找到测试数据中测试数据中每个文档的相似性。 ...

python machine-learning gensim doc2vec

回答 2 投票 0

MemoryError使用Python和Doc2Vec

我正在尝试为大量数据训练Doc2vec。我有一个总共72GB的20k文件，并写下这段代码：def train（）：onlyfiles = [f for listdir（mypath）中的f，如果是isfile（join（mypath，f））] ...

python machine-learning doc2vec

回答 1 投票 0

doc2vec使用gensim库导致不一致的相似性

我正在使用Gensim库来训练一些使用doc2vec的数据文件，同时尝试使用方法model.docvecs.most_similar（“file”）来测试其中一个文件的相似性，我总是得到所有...

python nlp gensim doc2vec

回答 2 投票 1

我想根据它们的语义来对一些句子进行分类。我如何在这里使用Doc2Vec？还是有比这更好的方法？

我想对从源中提取的各种评论实现doc2vec。我想将这些评论分类到用户定义的不同类中。我怎样才能做到这一点？

nlp semantics word2vec doc2vec

回答 1 投票 0

doc2vec / gensim - 在时代中改变句子的问题

我正在尝试使用优秀的教程，在这里和这里开始使用word2vec和doc2vec，并尝试使用代码示例。我只在line_clean（）方法中添加了删除标点符号，...

python word2vec gensim doc2vec

回答 1 投票 1

训练doc2Vec模型实际需要多少数据？

我一直在使用gensim的库来训练doc2Vec模型。在尝试不同的数据集进行培训后，我对于什么应该是理想的训练数据大小相当困惑...

neural-network gensim doc2vec

回答 1 投票 2

哪种方式恢复doc2vec模型效率更高？

在训练doc2vec模型之后，我想在另一个模块中重用文档向量。似乎有两种方法可以实现这一点：保存模型并将doc-vectors保存为字典。我只是好奇 ...

word2vec doc2vec

回答 1 投票 0

如何使用Gensim Doc2vec infer_vector（）进行大型DataFrame？

我使用Gensim的doc2vec为大型语料库创建了文档向量。 sentence = gensim.models.doc2vec.TaggedLineDocument（'file.csv'）model = gensim.models.doc2vec.Doc2Vec（句子，大小= 10，...

python gensim doc2vec

回答 2 投票 2

改进Gensim Doc2vec结果

我尝试在600000行句子上应用doc2vec：代码如下：来自gensim import models model = models.Doc2Vec（alpha = .025，min_alpha = .025，min_count = 1，workers = 5）model.build_vocab（res）。 ..

python nlp gensim doc2vec

回答 1 投票 4

doc2vec - 如何更快地推断文档向量？

我已经训练了大约2300个段落（每个2000-12000个单词）的段落向量，每个段落的矢量大小为300.现在，我需要推断大约100,000个句子的段落向量，我有...

python gensim word2vec doc2vec

回答 1 投票 3

doc2vec - python中doc2vec training和infer_vector（）的输入格式

在gensim中，当我给一个字符串作为训练doc2vec模型的输入时，我得到这个错误：TypeError（'不知道如何处理uri％s'％repr（uri））我提到了这个问题Doc2vec：.. 。

python gensim word2vec doc2vec

回答 1 投票 2

Doc2Vec.infer_vector每次都会在特定的训练模型上保持不同的结果

我正在尝试遵循这里提到的官方Doc2Vec Gensim教程 - https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb我将第10行的代码修改为.. 。

nlp word2vec gensim doc2vec

回答 1 投票 6

设置批量大小*和*神经网络的训练迭代次数？

我正在使用KNIME Doc2Vec Learner节点来构建Word嵌入。我知道Doc2Vec是如何工作的。在KNIME中，我可以选择设置参数Batch Size：每个批次使用的单词数。 ...

neural-network doc2vec knime

回答 1 投票 1

doc2vec 相关问题

最新问题