我尝试使用
w2v
主题连贯性分数来评估基于NMF
的主题模型。
下面是我计算出的w2v
相干性。
我想知道,
w2v
连贯性越高越好吗?
另外,为什么主题越多,连贯性分数就越低?
w2v
不同主题编号的分数:
连贯性越高越好吗?w2v
是的,一般来说,w2v 连贯性分数越高意味着主题质量越好。它基本上是说,组成每个主题的单词更加连贯。
为什么主题越多连贯性分数就越低?
通常,随着主题数量的增加,模型会尝试将单词分为越来越多的组。这会导致总体上意义不大或更加分散的主题。这是主题建模中的常见权衡,这就是为什么您可能想要研究其他指标,例如 perplexity inside w2v(或其他指标,具体取决于您的数据集)