在LDA中指定词汇输入

问题描述 投票:0回答:1

我正在尝试了解如何在我的情况下使用LDA。我有很多文档,但是我想看看如何在各个主题之间分配一组非常具体的单词和语法。有没有一种方法可以指定特定单词的列表作为主题建模的词汇?

我一直在使用gensim实现,我相信参数id2word可以解决这个问题,但是文档对我来说并不明确。我的理解正确吗?

python nlp cluster-analysis gensim lda
1个回答
0
投票

LDA的主题建模方法是,它将每个文档按一定比例视为主题的集合。而且每个主题都以一定比例作为关键字的集合。

一旦为算法提供了主题数量,它就会全部重新排列文档内的主题分布和主题内的关键字分布,以获得主题关键字分布的良好组合。

LDA主题模型的两个主要输入是字典或词汇表[id2word)和语料库。

您可以使用类似的方法来实现:

import gensim.corpora as corpora

# Create Dictionary/Vocabulary
id2word = corpora.Dictionary(data_lemmatized)

# Create Corpus
texts = data_lemmatized

# Term Document Frequency
corpus = [id2word.doc2bow(text) for text in texts]
© www.soinside.com 2019 - 2024. All rights reserved.