gensim 相关问题

Gensim是一个免费的Python框架,旨在自动从文档中提取语义主题,尽可能高效(计算机方面)和无痛(人性化)。

如何在Gensim词典中输入由不同标记组成的系列/列表?

我有一个pandas数据框,其中有一列有会话数据。我按以下方式预处理:def预处理(文本):返回[simple_preprocess中的单词(str(text),...

回答 1 投票 0

Doc2vec:如何获取文档向量

如何使用Doc2vec获取两个文本文档的文档向量?我是新手,所以如果有人能指出我正确的方向/帮助我使用我正在使用的一些教程会很有帮助...

回答 4 投票 49

如何更改LdaMulticore中的默认字数?

默认情况下,LDA在主题中显示10个单词。我希望将这些数字增加15.我尝试过“topn”和“num_words”关键字,但两者都给了我一个错误。我该如何更改此默认值...

回答 1 投票 0

使用Fasttext字向量的Gensim most_similar()返回无用/无意义的单词

我正在使用Gensim和Fasttext Word向量来返回类似的单词。这是我的代码:import gensim model = gensim.models.KeyedVectors.load_word2vec_format('cc.it.300.vec')words = model ....

回答 1 投票 0

gensim Doc2Vec词不在词汇表中

我正在训练一个带有txt文件'full_texts.txt'的doc2vec gensim模型,其中包含~1600个文档。一旦我训练了模型,我希望在单词和句子上使用相似性方法。但是,......

回答 1 投票 2

Gensim短语没有找到一些双桅杆

我想得到符号(字母)的双字母组合。例如,对于单词“done”和“dog”,我希望能够找到bigram“do”。我尝试使用gensim.Phrases,但它对我不起作用....

回答 1 投票 0

从python中的word2vec获取相似度矩阵(Gensim)

我使用以下python代码生成单词向量的相似性矩阵(我的词汇量大小为77)。 similarity_matrix = [] index = gensim.similarities.MatrixSimilarity(gensim.matutils ....

回答 2 投票 2

gensim.interfaces.TransformedCorpus - 如何使用?

我在Latent Dirichlet Allocation的世界里相对较新。我能够按照Wikipedia教程生成LDA模型,并且我能够使用自己的文档生成LDA模型。我现在的步骤......

回答 2 投票 2

Doc2Vec - 在测试数据中查找文档相似性

我正在尝试使用训练数据训练doc2vec模型,然后使用训练有素的doc2vec模型找到测试数据中测试数据中每个文档的相似性。 ...

回答 2 投票 0

加载仅包含其扩展名的文件

我想在gensim中只为它的扩展名加载一个文件。一个正常的代码是这样的:model = gensim.models.word2vec.Word2Vec.load(“news.bin”)但我希望它能自动打开任何文件......

回答 2 投票 0

Word2vec中类比一词背后的操作是什么?

根据https://code.google.com/archive/p/word2vec/:最近显示单词矢量捕获了许多语言规律,例如矢量操作矢量('Paris') - ...

回答 2 投票 2

微调spaCy的单词嵌入

Spacy具有很强的解析能力,而且它的API在很大程度上非常直观。 Spacy API是否有任何方法可以微调其嵌入模型?特别是,我想保持......

回答 1 投票 0

doc2vec使用gensim库导致不一致的相似性

我正在使用Gensim库来训练一些使用doc2vec的数据文件,同时尝试使用方法model.docvecs.most_similar(“file”)来测试其中一个文件的相似性,我总是得到所有...

回答 2 投票 1

pycharm中无法识别'gensim'

PyCharm找不到“anaconda列表”中列出的gensim。在anaconda列表中我可以看到gensim但它在项目解释器中不存在!我使用的是paython 3.7版。我没问题......

回答 1 投票 2

两种不同Word2Vec模型中单个词余弦相似度的计算

我使用gensim构建两个单词嵌入(word2vec模型)并使用model.save(model_name)命令将其保存为(word2vec1和word2vec2)两个不同的语料库(两个语料库有点...

回答 1 投票 1

在使用gensim库训练期间,Skip-gram word2vec和CBOW w2v有什么区别?

对于Skip-gram word2vec训练样本获得如下:句子:狐狸穿过枫林森林狐狸这个词给下一对训练:狐狸跑,狐狸跑,狐狸枫,狐狸-...

回答 1 投票 1

TypeError:ufunc'add'不包含带有签名匹配类型dtype的循环

我想将X_train_word2vec向量作为输入传递给Gensim Word2Vec模型。矢量类型是numpy.ndarray,例如:X_train_word2vec [9] = array([19,7,1,201,20,1,...

回答 1 投票 1

英特尔MKL致命错误:尝试导入gensim包时

我们在主机上安装了Anaconda 4.3.1,最近我们安装了几个用于数据科学的软件包。除了gensim之外,所有的进口都很好。我得到“英特尔MKL致命错误:......

回答 1 投票 0

在处理LDA分析的大量单词(> 1亿)时处理内存错误

我有50,000,000个文件 - 总共有1.62亿个单词。我想使用类似于本教程的Gensim进行主题建模。因此,LDA需要一个将文档标记为...

回答 1 投票 0

Gensim自我训练嵌入负载

有两种方法可以加载预训练的单词嵌入,那些用C语言编译,另一种用python编译。我在python中有自学编译嵌入,其中包含:model = gensim.models ....

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.