试图利用一个库来进行一些主题建模,但是进展不顺利

问题描述 投票:0回答:1

我有一个.csv术语文档矩阵,我想使用gensim在python中执行一些潜在的dirichlet分配。但是,我对Python LDA并不是特别熟悉。

我在gensim ...论坛上发布了?我不知道那是不是这个名字。写包裹的那个人回答说:

您的学期文档CSV矩阵有多大?

如果足够小=可以放入RAM,则可以:

1)使用numpy.loadtxt()将CSV加载到内存矩阵中

2)使用gensim.matutils.Dense2Corpus()将矩阵转换为语料库。签出其documents_columns标志,它使您可以轻松地在文档术语和术语文档转换之间切换。

3)使用该语料库训练您的LDA模型。

因此,我认为this question的答案不正确。

似乎字典是LDA模型的必要输入;这不正确吗?这就是我认为可以成功将.csv粘贴到语料库中的内容。

file = np.genfromtxt(fname=fPathName, dtype="int", delimiter=",", skip_header=True, missing_values="", filling_values=0)


corpus = gensim.matutils.Dense2Corpus(file, documents_columns=False)

任何帮助将不胜感激。

编辑:事实证明Gensim词典和Python词典不完全相同。

我有一个.csv术语文档矩阵,我想使用gensim在python中执行一些潜在的dirichlet分配。但是,我对Python或LDA并不是特别熟悉。我在gensim中发布了……

python gensim lda corpus
1个回答
0
投票

因此,从Gensim文档中我得到了以下代码片段:

© www.soinside.com 2019 - 2024. All rights reserved.