基于特征的主题分布的Mallet DMR负适用性？

我已经创建了DMR主题模型（通过Java API），该模型根据文档的发布年份来计算主题分布。

结果的分布有点混乱，因为有很多负概率。有时，整个主题的所有可能性均为负值。参见：

Q1：为什么会有负值？给定功能的主题分发的最低可能性应至少为0,0 ...我猜？

另外，我建立了一个LDA模型，其中ModelLogLikelihood似乎是超现实的。我用近400万个文档和20个主题训练了该模型。阿尔法= 1.0; Beta = 0.01；＃次迭代1000；

导致模型对数的可能性：-8.895651309362761E8

Q2：此值正确吗？还是我做错了什么？

1
投票

感谢您使用DMR！ LDA假设每个文档的主题分发的先验都是Dirichlet分发。 K维Dirichlet的参数是K非负实数。 DMR-LDA根据文档的属性生成特定于文档的优先级。

Q1：这些不是概率，它们是回归系数。如果您的文档具有功能2014，则主题1的Dirichlet参数的值将带有表达式exp(-4.5 + -0.25)。这是默认参数加上2014年的偏移量，取幂以使其变为非负数。这些值相当于默认值（不含任何附加功能）的大约0.01，以及2014年的0.008（78％）。

Q2：这是常见的困惑！关键是这是log概率。对数函数在1处越过0，因为到0的任何值为1。任何小于1的值的对数为负。由于所有概率均小于或等于1，因此所有log概率为零或负。人们常会感到惊讶的另一件事是日志概率有多大。假设您有一个语言模型，其中每个单词标记都是独立的，并且给定单词的概率通常约为1/1000。因此，一个单词的对数概率为-7.0左右。整个集合的联合概率是令牌概率的乘积，因此该联合概率的对数为-7的总和。我猜您的收藏集大约有1亿个令牌？

问题描述投票：1回答：1

1个回答

最新问题

基于特征的主题分布的Mallet DMR负适用性？

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1