大量短文本和少量长文本的潜在狄利克雷分配(LDA)

问题描述 投票:0回答:1

我正在尝试从大量短文本和相对少量的长文本中生成可比较的主题。目前,我将它们混合到一个语料库中来运行 LDA。我发现大多数主题都是由短文本驱动的,因为短文本的数量远大于长文档的数量。我有两个问题: (1)谁能从理论上解释一下这个问题(即短文本主题的主导地位)? (2)有没有更好的方法同时处理长文本和短文本?我正在考虑使用短文本作为训练样本,长文本作为测试样本。理论上正确吗?

python nlp lda
1个回答
0
投票

您可以将长文本分成句子并与短文本一起使用。然后,您可以对长文本的句子主题进行平均。

© www.soinside.com 2019 - 2024. All rights reserved.