使用Gensim实现潜在的Dirichlet分配

问题描述 投票:0回答:1

我正在做有关LDA主题建模的项目,我使用gensim(python)来做到这一点。我阅读了一些参考资料,并说要获得最佳的模型主题理论,我们需要确定两个参数,通过次数和主题数目。真的吗?对于通过的次数,我们将看到通过的点是稳定的;对于主题的数目,我们将看到哪个主题的值最低。

num_topics = 10
chunksize = 2000
passes = 20
iterations = 400
eval_every = None 

并且有必要使用gensim库中的所有参数吗?

machine-learning lda topic-modeling unsupervised-learning perplexity
1个回答
0
投票

好的LDA模型主要取决于主题的数量。通过的次数越多,主题模型将越准确(并且训练所需的时间也越长)。

当然,不必使用所有参数。大多数时候,您只会传递所需的参数。要找到最佳主题数,您可以获取c_v相干性值并在给定网格上找到最高相干性。通常,一致性是比困惑更好的度量标准,因为它与人类注释符更加一致。

© www.soinside.com 2019 - 2024. All rights reserved.