我正在做有关LDA主题建模的项目,我使用gensim(python)来做到这一点。我阅读了一些参考资料,并说要获得最佳的模型主题理论,我们需要确定两个参数,通过次数和主题数目。真的吗?对于通过的次数,我们将看到通过的点是稳定的;对于主题的数目,我们将看到哪个主题的值最低。
num_topics = 10
chunksize = 2000
passes = 20
iterations = 400
eval_every = None
并且有必要使用gensim库中的所有参数吗?
好的LDA模型主要取决于主题的数量。通过的次数越多,主题模型将越准确(并且训练所需的时间也越长)。
当然,不必使用所有参数。大多数时候,您只会传递所需的参数。要找到最佳主题数,您可以获取c_v相干性值并在给定网格上找到最高相干性。通常,一致性是比困惑更好的度量标准,因为它与人类注释符更加一致。