Gensim Mallet:输出没有针对几个主题的术语

问题描述 投票:0回答:1

下面是我使用Gensim Mallet包装器得到的输出。从这个SO link中,我了解到LL /令牌的意思是“ 模型的对数相似度除以令牌总数”。 1)但是,对于(1,8,11等)这样的少数主题,我根本看不到任何术语。 2)我尝试针对(10,20,2)的一系列主题运行代码(从10-20开始的2步)。但是输出显示17作为最后生成的主题。我在这里错过了一些东西。

0       2.77778 watch 
1       2.77778 
2       2.77778 receive tape hope purchase 
3       2.77778 dvds wildlife pass yr interested 
4       2.77778 dvd version walk bored 
5       2.77778 volume courtyard trilogy 
6       2.77778 crazy picture minute 
7       2.77778 neighbor 
8       2.77778 
9       2.77778 buy mice trouble stay versus feeder 
10      2.77778 inside stir tv mine life bird wonderful year fascinated 
11      2.77778 
12      2.77778 
13      2.77778 recommend test real prefer greenery 
14      2.77778 age 
15      2.77778 funny triliogy play friend full minute 
16      2.77778 
17      2.77778 time tree 

<950> LL/token: -22.17456
<960> LL/token: -22.22132
<970> LL/token: -22.24897
<980> LL/token: -22.11585
<990> LL/token: -22.38062
nlp gensim lda topic-modeling mallet
1个回答
0
投票

这看起来像当输入集合太小或分成太少的段时得到的输出。 “文档”应为100-500个字左右,并且至少应包含数百个字。

© www.soinside.com 2019 - 2024. All rights reserved.