使用Gensim实现潜在的Dirichlet分配

问题描述投票：0回答：1

我正在做有关LDA主题建模的项目，我使用gensim（python）来做到这一点。我阅读了一些参考资料，并说要获得最佳的模型主题理论，我们需要确定两个参数，通过次数和主题数目。真的吗？对于通过的次数，我们将看到通过的点是稳定的；对于主题的数目，我们将看到哪个主题的值最低。

num_topics = 10
chunksize = 2000
passes = 20
iterations = 400
eval_every = None

并且有必要使用gensim库中的所有参数吗？

machine-learning lda topic-modeling unsupervised-learning perplexity

1个回答

0
投票

好的LDA模型主要取决于主题的数量。通过的次数越多，主题模型将越准确（并且训练所需的时间也越长）。

当然，不必使用所有参数。大多数时候，您只会传递所需的参数。要找到最佳主题数，您可以获取c_v相干性值并在给定网格上找到最高相干性。通常，一致性是比困惑更好的度量标准，因为它与人类注释符更加一致。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.