gensim 相关问题

Gensim是一个免费的Python框架,旨在自动从文档中提取语义主题,尽可能高效(计算机方面)和无痛(人性化)。

gensim文档相似性:如何从最相似的结果中获取文档标题?

我正在使用gensim来分析大型语料库中的文档相似性。每个文档都有一个“标题”,或者更具体地说,一个唯一的ID字符串,以及内容文本。看了好几个......

回答 1 投票 0

LDA空间概率文件的主题分布是什么?

我知道LDA模型的创建是概率性的,并且在同一语料库中在相同参数下训练的两个模型不一定是相同的。但是,我想知道这个话题是否......

回答 1 投票 0

关于LDA的建议

我正在尝试对一堆(约140个)文本文档进行文本分析。在预处理和删除不必要的单词和停用词之后,每个文档都有大约7000个句子(如...

回答 1 投票 0

Doc2Vec.infer_vector每次都会在特定的训练模型上保持不同的结果

我正在尝试遵循这里提到的官方Doc2Vec Gensim教程 - https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb我将第10行的代码修改为.. 。

回答 1 投票 6

Doc2vec:gensim doc2vec模型中只有10个docvecs?

我使用gensim拟合doc2vec模型,标记文档(长度> 10)作为训练数据。目标是获取所有训练文档的doc向量,但在model.docvecs中只能找到10个向量。 ......

回答 1 投票 4

访问术语主题矩阵由Gensim LDA生成

我使用gensim培训了一个LDA模型。我的印象是Lda将数据减少到两个较低级别的矩阵(参见:https://www.analyticsvidhya.com/blog/2016/08/beginners-guide-to-topic -...

回答 1 投票 0

Gensim Phrase库不接受常用术语

我正在尝试使用Gensim.phrases库来识别文本中的短语。我使用了以下内容:bigram = models.Phrases(txt_to_words,min_count = min_count,threshold = threshold,common_terms = ...

回答 1 投票 0

生产环境中的文档相似性

我们有n个文件。在用户提交新文档后,我们的目标是告知他可能的现有文档重复(就像stackoverflow建议的问题可能......

回答 1 投票 2

如何使用多个查询计算文档相似度?

我已经使用LDA模型(使用Gensim)实现了基于特定文档的类似文档。我想做的下一件事是,如果我有多个文件,那么如何获得类似的文件......

回答 2 投票 0

如何使用相似之处。在gensim中的相似性?

如何使用相似性。在gensim中的相似性因为如果我使用相似性.MatrixSimilarity:index = similarities.MatrixSimilarity(tfidf [corpus])它只是告诉我:C:\ Users \ Administrator \ AppData \ ...

回答 1 投票 1

gensim LdaMulticore未从命令提示符运行

我正在使用gensim LdaMulticore来提取主题。它在Jupyter / Ipython笔记本中工作得非常好,但是当我从命令提示符运行时,循环无限期地运行。一旦执行到达......

回答 1 投票 0

NameError:未定义名称'gensim'

我已经从gensim导入语料库中导入gensim导入语料库中的所有包来自gensim.models从gensim.models导入LdaModel从gensim.models导入导入TfidfModel导入...

回答 2 投票 0

如何使用gensim查看和解释lda模型的输出

我能够创建lda模型并保存它。现在我正在尝试加载模型,并传递一个新文件lda = LdaModel.load('.. \\ models \\ lda_v0.1.model')doc_lda = lda [new_doc_term_matrix] print(...

回答 1 投票 2

使用Gensim进行动态主题建模/哪些代码?

我想使用Blei等人的动态主题建模。 (http://www.cs.columbia.edu/~blei/papers/BleiLafferty2006a.pdf)获得了近3800件专利文献的大型语料库。有没有人有......的经验

回答 1 投票 1

对gensim中ldaseqmodel的评价

是否有可能在困惑度和主题一致性的值中评估动态模型(ldaseqmodel),如“普通”lda模型?我知道这些值被打印到logging.INFO中,......

回答 1 投票 0

如何避免解码为str:在pandas中需要类似字节的对象错误?

这是我的代码:data = pd.read_csv('asscsv2.csv',encoding =“ISO-8859-1”,error_bad_lines = False); data_text = data [['content']] data_text ['index'] = data_text.index documents = data_text它看起来......

回答 1 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.