在LDA中指定词汇输入

Question

我正在尝试了解如何在我的情况下使用LDA。我有很多文档，但是我想看看如何在各个主题之间分配一组非常具体的单词和语法。有没有一种方法可以指定特定单词的列表作为主题建模的词汇？

我一直在使用gensim实现，我相信参数id2word可以解决这个问题，但是文档对我来说并不明确。我的理解正确吗？

Answer 1

LDA的主题建模方法是，它将每个文档按一定比例视为主题的集合。而且每个主题都以一定比例作为关键字的集合。

一旦为算法提供了主题数量，它就会全部重新排列文档内的主题分布和主题内的关键字分布，以获得主题关键字分布的良好组合。

LDA主题模型的两个主要输入是字典或词汇表[id2word）和语料库。

您可以使用类似的方法来实现：

import gensim.corpora as corpora

# Create Dictionary/Vocabulary
id2word = corpora.Dictionary(data_lemmatized)

# Create Corpus
texts = data_lemmatized

# Term Document Frequency
corpus = [id2word.doc2bow(text) for text in texts]

在LDA中指定词汇输入

问题描述投票：0回答：1

1个回答

最新问题

在LDA中指定词汇输入

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1