gensim 相关问题

Gensim是一个免费的Python框架,旨在自动从文档中提取语义主题,尽可能高效(计算机方面)和无痛(人性化)。


MemoryError:在python中使用word2vec时无法分配形状和数据类型为float32的数组

我正在尝试从Wikipedia文本数据中训练word2vec模型,因为我正在使用以下代码。导入日志记录导入os.path导入sys导入gensim.corpora导入的多处理...

回答 1 投票 0

计算一致性得分时出错– AttributeError:'dict'对象没有属性'id2token'

我是NLP的初学者,这是我第一次进行主题建模。我能够生成模型,但是无法生成一致性度量。将术语文档矩阵转换为新的...

回答 1 投票 0

如何使用Gensim在葡萄牙语中生成单词嵌入?

我有以下问题:在我的英语语言中,我的代码通过Gensim成功生成了词嵌入,并且考虑到余弦距离,相似的短语彼此接近:...

回答 1 投票 1

如何将模型,字典和语料库保存到Gensim中的磁盘,然后再次加载它们?

在Gensim的文档中,它说:您可以将经过训练的模型保存到磁盘上,然后再加载回去,以便继续在新的训练文档上进行训练或转换新的文档。我想要...

回答 1 投票 0

如何通过CBOW(GenSim)从一组输入单词中查找最相似的单词?

我使用GenSim和CBOW训练语料库。如何从一组输入单词中获得最相似的单词?例如:给定一组输入词:[“ David”,“ Mary”,“ married”]。我可以推断出一些...

回答 1 投票 0

如何将gensim创建的快速文本模型导出到二进制文件?

我正在尝试将gensim创建的快速文本模型导出到二进制文件。但是文档尚不清楚如何实现这一目标。到目前为止,我所做的是:model.wv.save_word2vec_format('model.bin')...

回答 1 投票 1

Gensim LdaMulticore不能正确地进行多处理(仅使用4个工人)

我正在使用Gensim的LDAMulticore执行LDA。我有大约2千8百万个小文档(每个约100个字符)。我给工人的参数是20,但最上面仅用4个过程显示了它。 ...

回答 1 投票 3

获得model.docvecs.similarity_unseen_docs(document_1,document_2)的否定分数

我正在尝试找出2个文档之间的相似性,即'document_1'和'document_2'。我正在使用Doc2Vec Gensim的keyedvectors.py查找相似性得分。分数= model.docvecs ....

回答 1 投票 0

Gensim相似性非常大的数据集(约470万)

我有一个包含470万个问题的数据集,我想比较它们的tf-idf向量,并为每个问题检索最相似的对。根据gensim文档,还有一个...

回答 1 投票 0

如何在3000-4000字的大型文档中进行语言表示以进行基于查询的检索?

我正在尝试进行语义搜索,以从非结构化法语文档的数据集中检索相似的文档。这些文档未分类,并且是包含300-3000个单词的模板...

回答 1 投票 0

Python连接文本中的组合关键字

所以,我的关键字列表是小写的。假设关键字= [“机器学习”,“数据科学”,“人工智能”]和小写文本列表。假设文字= ['新机器...

回答 1 投票 0

gensim中的分批训练word2vec在多名工人的支持下

上下文存在一些有关如何使用gensim和流数据训练Word2Vec的问题。无论如何,这些问题没有解决流式传输不能使用多个工作程序的问题,因为...

回答 1 投票 0

Gensim快速文本包装器在模型训练时返回权限错误13

我试图在本地计算机上重现本教程,以习惯于生成快速文本功能。 Fasttext和gensim库已正确安装。通过调用gensim的train方法...

回答 1 投票 0

在数据框中查找包含双字/三字组词的行

[此示例用于查找二元组:给定:将大熊猫作为pd数据= [['tom',10],['jobs',15],['phone',14],['pop',16], ['they_said',11],['this_example',22],['lights',14]] test = pd ....

回答 2 投票 0

使用带有Gensim的西班牙语预训练模型会引发KeyError(“单词'%s'不在词汇表中”%word)

我正在努力解决以下问题:我下载了预训练的西班牙语单词嵌入模型(超过一百万个单词,西班牙语的300维单词向量),我成功加载了该模型,然后我...

回答 1 投票 0

Gensim相似词不在词汇表中

我正在尝试将由单词列表组成的带标签文档与标签列表中的各个标签进行比较。我的代码如下:从gensim.models.doc2vec导入从gensim导入Doc2Vec ...

回答 1 投票 1

Gensim:是否有机会获得Word2Vec格式的词频?

我正在使用快速文本预训练模型进行研究,我需要词频来做进一步分析。 fasttext网站上提供的.vec或.bin文件是否包含词频信息?...

回答 1 投票 0

调用Spark中的Doc2Vec和逻辑回归机器学习的输入向量

我运行Gensim来训练主体的Doc2vec。我需要提取每个文档的向量作为输入数据,以便在spark中进行逻辑回归。

回答 1 投票 0

如何向Word2vec gensim手动添加单词和向量?

假设word2vec.model是我训练有素的word2vec模型。当出现词汇量不足的单词(oov_word)时,我使用compute_vec(oov_word)方法计算向量vec。现在,我想添加/附加oov_word ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.