我正在尝试了解如何在我的情况下使用LDA。我有很多文档,但是我想看看如何在各个主题之间分配一组非常具体的单词和语法。有没有一种方法可以指定特定单词的列表作为主题建模的词汇?
我一直在使用gensim实现,我相信参数id2word
可以解决这个问题,但是文档对我来说并不明确。我的理解正确吗?
LDA的主题建模方法是,它将每个文档按一定比例视为主题的集合。而且每个主题都以一定比例作为关键字的集合。
一旦为算法提供了主题数量,它就会全部重新排列文档内的主题分布和主题内的关键字分布,以获得主题关键字分布的良好组合。
LDA
主题模型的两个主要输入是字典或词汇表[id2word
)和语料库。
您可以使用类似的方法来实现:
import gensim.corpora as corpora
# Create Dictionary/Vocabulary
id2word = corpora.Dictionary(data_lemmatized)
# Create Corpus
texts = data_lemmatized
# Term Document Frequency
corpus = [id2word.doc2bow(text) for text in texts]