带有Mallet的主题建模-主题键输出参数

问题描述 投票:0回答:1

我对此处提出的问题有一个后续问题:Mallet topic modeling - topic keys output parameter

希望我仍然可以对此主题进行更详细的说明,因为我在输出文件中无法理解这些数字。

输出数字的总和能告诉我们什么?例如,如果有20个主题,并且2000次迭代的优化值为20,则输出的总和大约为2。具有相同的语料库,但有15个主题/ 1000次迭代/优化10,结果为0,77,而有10个主题/ 1000次迭代/优化10为0.72。这是什么意思?它甚至意味着什么?

而且,这些人将这些结果称为参数,但据我所知,参数是优化间隔,而不是输出中的结果。那么在输出中引用结果的正确方法是什么?主题频率?它是某物的百分比吗?我哪部分弄错了?

topic-modeling mallet
1个回答
0
投票
您是正确的,在这里使用

parameter是指两个不同的东西。

  • 统计模型的参数是确定该模型的属性的值。在这种情况下,他们将确定我们期望哪些主题会更频繁地出现,以及我们对此有多自信。在某些情况下,这些是由用户设置的,而在其他情况下,它们是由推理算法设置的。
  • [推理算法的参数是确定我们用来设置统计模型参数的过程的设置。

另一个困惑是,当用户明确设置模型参数时,Mallet使用与算法设置相同的界面。

您看到的数字是Dirichlet分布的参数,该分布描述了我们对文档中主题混合的先前期望。您可以认为它有两个部分:比例和大小。如果重新缩放数字以将其总计为1.0,则得出的比例将告诉您模型猜测哪个主题最常出现。数字的实际总和(大小)告诉您该模型对您将在文档中看到的实际比例的信心程度。较小的值表示更多的可变性。

关于您看到的数字的一种可能解释(请将此视为原始推测)是20主题模型具有更大的灵活性来适应一致的主题,因此,确信某些主题始终如一地具有大约三倍的信心在文档中更经常出现。随着主题数量的减少,主题的特异性下降,因此在给定的文档中,任何特定主题都可能很大。

© www.soinside.com 2019 - 2024. All rights reserved.