基于特征的主题分布的Mallet DMR负适用性?

问题描述 投票:1回答:1

我已经创建了DMR主题模型(通过Java API),该模型根据文档的发布年份来计算主题分布。

结果的分布有点混乱,因为有很多负概率。有时,整个主题的所有可能性均为负值。参见:

enter image description here

Q1:为什么会有负值?给定功能的主题分发的最低可能性应至少为0,0 ...我猜?

另外,我建立了一个LDA模型,其中ModelLogLikelihood似乎是超现实的。我用近400万个文档和20个主题训练了该模型。阿尔法= 1.0; Beta = 0.01; #次迭代1000;

导致模型对数的可能性:-8.895651309362761E8

Q2:此值正确吗?还是我做错了什么?

java machine-learning topic-modeling mallet
1个回答
1
投票

感谢您使用DMR! LDA假设每个文档的主题分发的先验都是Dirichlet分发。 K维Dirichlet的参数是K非负实数。 DMR-LDA根据文档的属性生成特定于文档的优先级。

Q1:这些不是概率,它们是回归系数。如果您的文档具有功能2014,则主题1的Dirichlet参数的值将带有表达式exp(-4.5 + -0.25)。这是默认参数加上2014年的偏移量,取幂以使其变为非负数。这些值相当于默认值(不含任何附加功能)的大约0.01,以及2014年的0.008(78%)。

Q2:这是常见的困惑!关键是这是log概率。对数函数在1处越过0,因为到0的任何值为1。任何小于1的值的对数为负。由于所有概率均小于或等于1,因此所有log概率为零或负。人们常会感到惊讶的另一件事是日志概率有多大。假设您有一个语言模型,其中每个单词标记都是独立的,并且给定单词的概率通常约为1/1000。因此,一个单词的对数概率为-7.0左右。整个集合的联合概率是令牌概率的乘积,因此该联合概率的对数为-7的总和。我猜您的收藏集大约有1亿个令牌?

© www.soinside.com 2019 - 2024. All rights reserved.