从词袋向量使用gensim创建LDA模型

问题描述 投票:1回答:1

我想根据Jstor提供的数据(例如https://www.jstor.org/dfr/about/sample-datasets)创建主题模型。但是,由于版权原因,它们不允许全文访问。取而代之的是,我可以请求一个字母组合的列表,后跟它们在文档中的频率(以纯文本.txt提供)。例如:

his         295
old         181
he          165
age         152
p           110
from         79
life         74
de           71
petrarch     58
book         51
courtier     47

这应该很容易转换为单词袋向量。但是,我仅发现了从全文构建Gensim LDA模型的示例。可以将这些向量传递给它吗?

vector lda topic-modeling jstor
1个回答
0
投票

是,您只需要将(word, frequency)转换为(word_number, frequency),并将元组列表传递给任何gensim模型的corpus。要将单词转换为数字,您可以首先计算整个语料库中有多少个单词,假设我们有V个单词,然后每个单词可以表示为1到V之间的整数。 >

© www.soinside.com 2019 - 2024. All rights reserved.