gensim 相关问题

Gensim是一个免费的Python框架,旨在自动从文档中提取语义主题,尽可能高效(计算机方面)和无痛(人性化)。

导入GoogleNews-vectors-negative300.bin

我正在使用gensim处理代码,并且很难在我的代码中对ValueError进行故障排除。我终于能够压缩GoogleNews-vectors-negative300.bin.gz文件了,所以我可以实现它...

回答 2 投票 4

如何删除有关使用Word2vec gensim \ matutils.py:737的gensim警告

我发现word2vec.similarity()的警告如下:> d:\ python \ lib \ site-packages \ gensim \ matutils.py:737:FutureWarning:将issubdtype的第二个参数从`int`转换为`np。 ...

回答 1 投票 2

如何在单词嵌入模型中添加OOV术语

我正在使用单词嵌入模型(通过Gensim库的FastText)来扩展搜索条款。所以,基本上如果用户编写“操作系统”,我的目标是扩展该术语非常相似......

回答 2 投票 1

标记化时如何只返回实际令牌而不是空变量?

我有一个函数:def remove_stopwords(text):return [[word in simple_preprocess(str(doc),min_len = 2)如果word不在stop_words] for doc in texts]我的输入是一个带有...的列表

回答 2 投票 0

如何在gensim中从单词的自定义输入字典中获取类似的单词

我正在研究文档相似性问题。对于每个文档,我检索每个单词的向量(来自预先训练的单词嵌入模型)并对它们求平均值以获得文档向量。一世 ...

回答 1 投票 0

gensim / models / ldaseqmodel.py:217:RuntimeWarning:在double_scalars中遇到零除

/Users/Barry/anaconda/lib/python2.7/site-packages/gensim/models/ldaseqmodel.py:217:RuntimeWarning:在double_scalars中遇到的除以零收敛= np.fabs((bound - old_bound)/ old_bound)。 ..

回答 1 投票 0

为每个主题添加单词LDA

我正在使用Gensim在python中构建LDA,我正在努力增加每个主题打印的单词数量,默认值为10.我想要20个主题,每个主题30个单词。任何建议都是......

回答 1 投票 0

具有大型语料库的Python Gensim LDAMallet CalledProcessError(小型语料库运行良好)

当我在大约1600万个文档的完整语料库中运行Gensim LDAMallet模型时,我得到一个CalledProcessError“非零退出状态1”错误。有趣的是,如果我在...上运行完全相同的代码

回答 1 投票 1

通过限制语料库文档的字大小来进行潜在Dirichlet分配(LDA)性能

我一直在使用python(gensim包)中的Latent Dirichlet分配(LDA)生成客户评论的yelp数据集。在生成令牌时,我只选择有...的单词

回答 2 投票 0

WikiCorpus在gensim中执行什么文本处理?

我使用gensim在Wikipedia语料库上训练了doc2vec模型,我希望从不同的文档中检索向量。我想知道当我...时,WikiCorpus函数处理了什么文本。

回答 1 投票 1

与使用doc2vec模型的文档相比,如何计算单词或几个单词的相似度?

在gensim中我有一个训练有素的doc2vec模型,如果我有一个文档和一个单词或两三个单词,那么计算单词与文档相似性的最佳方法是什么?我......

回答 1 投票 0

如何使用预先获得的语料库加速gensim word2vec初始化?

我正在同一语料库中训练多个word2vec模型。 (我这样做是为了研究学习单词向量的变化)我使用本教程作为参考:https://rare-technologies.com / ...

回答 1 投票 0

来自整个doc2vec模型的单词向量与来自特定文档的单词向量

我训练了一个gensim的Doc2Vec模型,默认的word2vec训练(dm = 1)。我可以从model.wv.vectors中的全局模型中获取单词向量。但是文档说的是同一个词(“离开”......

回答 1 投票 0

LDA主题模型性能 - 用于scikit-learn的主题一致性实现

我有一个关于测量/计算scikit-learn中构建的LDA模型的主题一致性的问题。主题一致性是衡量给定LDA主题的人类可解释性的有用指标......

回答 2 投票 4

如何比较Python Gensim中两个文档与主题分布的主题相似性?

我使用Gensim在语料库上训练了LDA模型。既然我已经为每个文档分配了主题,那么如何比较主题中两个文档的相似程度呢?我想要一个总结......

回答 1 投票 1

Gensim LDA:相干值在运行之间不可重现

我使用此代码https://datascienceplus.com/evaluation-of-topic-modeling-topic-coherence/来查找数据集的主题一致性。当我尝试使用相同数量的主题的代码时,我得到了新的......

回答 1 投票 0

如何执行k意味着从Gensim TF IDF值进行聚类

我正在使用Gensim进行矢量空间模型。在从Gensim创建字典和语料库后,我使用以下行计算了(Term frequency * Inverse document Frequency)TFIDF:Term_IDF = ...

回答 2 投票 1

如何使用Gensim应用句子级LDA模型?

是否可以按照Bao和Datta(2014)的建议使用Gensim应用句子级LDA模型?论文在这里。其独特之处在于它使“每句话假设一个主题”......

回答 1 投票 0

使用gensim和预训练的word2vec模型管理KeyError

我使用wang2vec(https://github.com/wlin12/wang2vec)预先训练了一个单词嵌入,然后我通过gensim将它加载到python中。当我试图得到一些不在词汇中的单词的向量时,我显然...

回答 1 投票 0

word2vec训练前语料库的词形化

Word2vec似乎主要是针对原始语料库数据进行培训。然而,词形还原是许多语义相似性任务的标准预处理。我想知道是否有人有使用lemmatizing的经验...

回答 2 投票 17

© www.soinside.com 2019 - 2024. All rights reserved.