我有一个.csv术语文档矩阵,我想使用gensim在python中执行一些潜在的dirichlet分配。但是,我对Python 或 LDA并不是特别熟悉。
我在gensim ...论坛上发布了?我不知道那是不是这个名字。写包裹的那个人回答说:
您的学期文档CSV矩阵有多大?
如果足够小=可以放入RAM,则可以:
1)使用numpy.loadtxt()将CSV加载到内存矩阵中
2)使用gensim.matutils.Dense2Corpus()将矩阵转换为语料库。签出其documents_columns标志,它使您可以轻松地在文档术语和术语文档转换之间切换。
3)使用该语料库训练您的LDA模型。
因此,我认为this question的答案不正确。
似乎字典是LDA模型的必要输入;这不正确吗?这就是我认为可以成功将.csv粘贴到语料库中的内容。
file = np.genfromtxt(fname=fPathName, dtype="int", delimiter=",", skip_header=True, missing_values="", filling_values=0) corpus = gensim.matutils.Dense2Corpus(file, documents_columns=False)
任何帮助将不胜感激。
编辑:事实证明Gensim词典和Python词典不完全相同。
我有一个.csv术语文档矩阵,我想使用gensim在python中执行一些潜在的dirichlet分配。但是,我对Python或LDA并不是特别熟悉。我在gensim中发布了……
因此,从Gensim文档中我得到了以下代码片段: