我对此处提出的问题有一个后续问题:Mallet topic modeling - topic keys output parameter
希望我仍然可以对此主题进行更详细的说明,因为我在输出文件中无法理解这些数字。
输出数字的总和能告诉我们什么?例如,如果有20个主题,并且2000次迭代的优化值为20,则输出的总和大约为2。具有相同的语料库,但有15个主题/ 1000次迭代/优化10,结果为0,77,而有10个主题/ 1000次迭代/优化10为0.72。这是什么意思?它甚至意味着什么?
而且,这些人将这些结果称为参数,但据我所知,参数是优化间隔,而不是输出中的结果。那么在输出中引用结果的正确方法是什么?主题频率?它是某物的百分比吗?我哪部分弄错了?
parameter是指两个不同的东西。
另一个困惑是,当用户明确设置模型参数时,Mallet使用与算法设置相同的界面。
您看到的数字是Dirichlet分布的参数,该分布描述了我们对文档中主题混合的先前期望。您可以认为它有两个部分:比例和大小。如果重新缩放数字以将其总计为1.0,则得出的比例将告诉您模型猜测哪个主题最常出现。数字的实际总和(大小)告诉您该模型对您将在文档中看到的实际比例的信心程度。较小的值表示更多的可变性。
关于您看到的数字的一种可能解释(请将此视为原始推测)是20主题模型具有更大的灵活性来适应一致的主题,因此,确信某些主题始终如一地具有大约三倍的信心在文档中更经常出现。随着主题数量的减少,主题的特异性下降,因此在给定的文档中,任何特定主题都可能很大。