带有Mallet的主题建模-主题键输出参数

我对此处提出的问题有一个后续问题：Mallet topic modeling - topic keys output parameter

希望我仍然可以对此主题进行更详细的说明，因为我在输出文件中无法理解这些数字。

输出数字的总和能告诉我们什么？例如，如果有20个主题，并且2000次迭代的优化值为20，则输出的总和大约为2。具有相同的语料库，但有15个主题/ 1000次迭代/优化10，结果为0,77，而有10个主题/ 1000次迭代/优化10为0.72。这是什么意思？它甚至意味着什么？

而且，这些人将这些结果称为参数，但据我所知，参数是优化间隔，而不是输出中的结果。那么在输出中引用结果的正确方法是什么？主题频率？它是某物的百分比吗？我哪部分弄错了？

0
投票

您是正确的，在这里使用

parameter是指两个不同的东西。

统计模型的参数是确定该模型的属性的值。在这种情况下，他们将确定我们期望哪些主题会更频繁地出现，以及我们对此有多自信。在某些情况下，这些是由用户设置的，而在其他情况下，它们是由推理算法设置的。
[推理算法的参数是确定我们用来设置统计模型参数的过程的设置。
另一个困惑是，当用户明确设置模型参数时，Mallet使用与算法设置相同的界面。
您看到的数字是Dirichlet分布的参数，该分布描述了我们对文档中主题混合的先前期望。您可以认为它有两个部分：比例和大小。如果重新缩放数字以将其总计为1.0，则得出的比例将告诉您模型猜测哪个主题最常出现。数字的实际总和（大小）告诉您该模型对您将在文档中看到的实际比例的信心程度。较小的值表示更多的可变性。
关于您看到的数字的一种可能解释（请将此视为原始推测）是20主题模型具有更大的灵活性来适应一致的主题，因此，确信某些主题始终如一地具有大约三倍的信心在文档中更经常出现。随着主题数量的减少，主题的特异性下降，因此在给定的文档中，任何特定主题都可能很大。

问题描述投票：0回答：1

1个回答

最新问题

带有Mallet的主题建模-主题键输出参数

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1