gensim 相关问题

Gensim是一个免费的Python框架,旨在自动从文档中提取语义主题,尽可能高效(计算机方面)和无痛(人性化)。

gensim word2vec访问进/出向量

在word2vec模型中,有两个线性变换,它们将词汇空间中的单词带到隐藏层(“in”向量),然后返回到词汇空间(“out”向量)。通常这个向量...

回答 4 投票 13

如何减少语义相似的单词?

我从文档中提取了大量的单词。语料库中的词语可能意思相同。例如:“命令”和“命令”意思相同,“苹果”和“申请”并不意味着......

回答 1 投票 0

Gensim:提出KeyError(“词'%s'不在词汇表中”%word)

我有这个代码,我有文章列表作为数据集。每个原始文章都有一篇文章我运行这段代码:import gensim docgen = TokenGenerator(raw_documents,custom_stop_words)#模型有......

回答 1 投票 1

在Wikipedia语料库上训练LDA来标记仲裁文章?

我按照gensim Python https://radimrehurek.com/gensim/wiki.html中的步骤在LDA模型上训练维基百科,现在我想比较来自cnn.com的任意文章与训练数据,...

回答 1 投票 0

如何将具有6.6以上相似性的单词写入从字典到pandas中的数据帧的特定单词

我有一个word2vec字典,其中包含与给定单词相似的单词列表。示例model.most_similar(“ltd”)[('limited',0.7886955142021179),('limi',0.6512018442153931),('limite',0 ....

回答 1 投票 0

如何从pandas中的字典创建前5个关闭单词的数据框到特定单词列表

我有一个word2vec字典,给出了给定单词的顶部相似单词。我想从文件或列表中传递需要计算相似度的单词列表输入word_list = ['wan,...

回答 1 投票 2

doc2vec / gensim - 在时代中改变句子的问题

我正在尝试使用优秀的教程,在这里和这里开始使用word2vec和doc2vec,并尝试使用代码示例。我只在line_clean()方法中添加了删除标点符号,...

回答 1 投票 1

训练doc2Vec模型实际需要多少数据?

我一直在使用gensim的库来训练doc2Vec模型。在尝试不同的数据集进行培训后,我对于什么应该是理想的训练数据大小相当困惑...

回答 1 投票 2

如何获得与一个单词相关的类似单词?

我正试图解决一个nlp问题,我有一个单词的词典,如:list_1 = {'phone':'android','chair':'netflit','充电器':'macbook','laptop','sony '}现在,如果输入是'电话',我可以轻松使用'in'...

回答 1 投票 0

word2vec模型由字符而不是单词组成

我试图用Gensim制作一个关于波斯语的word2vec模型,它有“空格”作为字符分隔符,我使用的是python 3.5。我遇到的问题是我给了一个文本文件作为输入,它...

回答 2 投票 1

Gensim相当于训练步骤

gensim Word2Vec是否有一个选项,相当于TensorFlow word2vec示例中的“训练步骤”:Word2Vec Basic?如果没有,gensim使用什么默认值?是gensim ...

回答 1 投票 1

在Tensorflow中训练wordvec,导入Gensim

我正在从tensorflow教程中训练word2vec模型。 https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/word2vec/word2vec_basic.py训练结束后我得到......

回答 1 投票 3

从gensim word2Vec获取权重矩阵

我在python中使用gensim word2vec包。我想检索在跳过学习过程中学习过的W和W'权重矩阵。在我看来,model.syn0给了我......

回答 1 投票 10

如何使用Gensim Doc2vec infer_vector()进行大型DataFrame?

我使用Gensim的doc2vec为大型语料库创建了文档向量。 sentence = gensim.models.doc2vec.TaggedLineDocument('file.csv')model = gensim.models.doc2vec.Doc2Vec(句子,大小= 10,...

回答 2 投票 2

gensim doc2vec给出了不确定的结果

我在gensim python库中使用Doc2Vec模型。每当我用相同的句子数据输入模型并将参数:Doc2Vec的种子设置为固定数时,模型给出不同的...

回答 1 投票 0

改进Gensim Doc2vec结果

我尝试在600000行句子上应用doc2vec:代码如下:来自gensim import models model = models.Doc2Vec(alpha = .025,min_alpha = .025,min_count = 1,workers = 5)model.build_vocab(res)。 ..

回答 1 投票 4

使用Word2Vec的Skip-gram无法正常工作

我正在尝试构建一个word2vec相似度字典。我能够构建一个字典,但相似性没有正确填充。我在代码中遗漏了什么吗?输入样本数据......

回答 1 投票 1

doc2vec - 如何更快地推断文档向量?

我已经训练了大约2300个段落(每个2000-12000个单词)的段落向量,每个段落的矢量大小为300.现在,我需要推断大约100,000个句子的段落向量,我有...

回答 1 投票 3

doc2vec - python中doc2vec training和infer_vector()的输入格式

在gensim中,当我给一个字符串作为训练doc2vec模型的输入时,我得到这个错误:TypeError('不知道如何处理uri%s'%repr(uri))我提到了这个问题Doc2vec:.. 。

回答 1 投票 2

LDA gensim实现,两个不同文档之间的距离

编辑:我在这里发现了一个有趣的问题。此链接显示gensim在训练和推理步骤中使用随机性。所以这里建议的是设置一个固定的种子以获得相同的...

回答 2 投票 5

© www.soinside.com 2019 - 2024. All rights reserved.