使Mallet主题建模稳定

问题描述 投票:0回答:1

我正在使用mallet主题建模工具并且有一些困难使它稳定(我得到的主题似乎不是很逻辑)。

我使用了你的教程和那个:https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet和我有一些问题:

  1. 是否有一些最佳实践可以使该模型起作用?除了优化命令(这是一个很好的数字)?迭代命令有什么好的数字?
  2. 我使用import dir命令导入我的数据。在那个目录中有我的文件。如果这些文件包含带有新行的文本或只是很长的行,这是否重要?
  3. 我读到了hLDA模型。当我试图运行它时,我看到唯一的输出是state.txt输出,不太清楚。我期望像主题建模模型(topic_keys.txt,doc_topics.txt)这样的输出如何获得它们?
  4. 我何时应该使用hLDA而不是主题建模?

非常感谢你的帮助!

nlp topic-modeling mallet
1个回答
0
投票

关于主题建模的良好实践的一些参考文献是乔兹·博伊德·格拉伯和戴夫·纽曼的The Care and Feeding of Topic Models以及乔丹·博伊德·格拉伯和胡明宁的Applied Topic Modeling

对于超参数优化,--optimize-interval 20 --optimize-burn-in 50应该没问题,它似乎对特定值不敏感。 Gibbs采样的收敛很难评估,默认的1000次迭代应该被解释为“一个足够大的数字,它可能是正常的”,而不是特定的值。

如果要从目录中的文件中读取单个文档,则行无关紧要。如果文档在删除停用词之前超过约1000个令牌,请考虑将它们分成较小的段。

仅包含hLDA因为人们似乎想要它,我不建议将其用于任何目的。

© www.soinside.com 2019 - 2024. All rights reserved.