使用对数似然比对不同的槌形主题模型?

问题描述 投票:1回答:1

我试图找出它是可能的,还是最好的方法是比较用mallet创建的编程上不同的主题模型,以确定给定语料库的“最佳”拟合模型。

API提供了一种确定所生成模型的对数似然性的方法。见f.e. :[#modelLogLikelihood()

Afaik可以根据保留数据的对数似然比较不同的模型。但是这种方法可以计算出整个模型的可能性。我已经检查了source code,但这并没有将光带入黑暗。

所以我的问题是:上述方法的输出是否适合比较不同的主题建模算法(例如,层次PAM,LDA,DMR等),以找出哪种模型(理论上)代表了语料库的最佳方法?

java machine-learning topic-modeling mallet
1个回答
0
投票

对数似然计算的目的是提供一个在不同模型之间可比较的度量。也就是说,我不建议您以这种方式使用它。

首先,如果您实际上关心语言模型的预测可能性,则应使用许多最新的深度神经模型之一。

其次,似然性对平滑参数非常敏感,因此,获得一致差异的事实可能只是您自己的设置的假象。预处理决策(例如标记化和多词术语)也可能会比选择模型产生更大的影响。

第三,如果您实际上对主题模型输出感兴趣,那么应该清楚您想要从模型中得到什么,以及模型的哪些特征使其对于您的特定需求有用。我想建议人们认为主题模型更像是制作地图而不是拟合回归。地图的最佳分辨率取决于您要去的地方。

最后,使用最简单的模型几乎可以肯定你会更好。

© www.soinside.com 2019 - 2024. All rights reserved.