我正在使用mallet主题建模工具并且有一些困难使它稳定(我得到的主题似乎不是很逻辑)。
我使用了你的教程和那个:https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet和我有一些问题:
非常感谢你的帮助!
关于主题建模的良好实践的一些参考文献是乔兹·博伊德·格拉伯和戴夫·纽曼的The Care and Feeding of Topic Models以及乔丹·博伊德·格拉伯和胡明宁的Applied Topic Modeling。
对于超参数优化,--optimize-interval 20 --optimize-burn-in 50
应该没问题,它似乎对特定值不敏感。 Gibbs采样的收敛很难评估,默认的1000次迭代应该被解释为“一个足够大的数字,它可能是正常的”,而不是特定的值。
如果要从目录中的文件中读取单个文档,则行无关紧要。如果文档在删除停用词之前超过约1000个令牌,请考虑将它们分成较小的段。
仅包含hLDA因为人们似乎想要它,我不建议将其用于任何目的。