我有787个文档(语音-文本文件)。使用“ textmineR”包,我得到了相同的主题。我有3个主题,如下所示:
topic label coherence prevalence top_terms
t_1 policy 0.092 37.374 policy, inflation, monetary, rate, federal, economic
t_2 financial 0.030 37.677 financial, banks, risk, capital, market, not
t_3 community 0.004 24.949 community, federal, reserve, more, return, mortgage
有人可以建议我如何将每个主题分配给相关文档吗?并为它创建一个datable:
Document Number Topic
1 t_1
依此类推。
找到它,可以使用由于fitLDAmodel生成的theta矩阵。这就是每个演讲(文档)中每个主题的意义。