提到主题建模和自然语言处理中的“短文本”,短文本的长度定义是什么?

问题描述 投票:0回答:1

说到主题建模和自然语言处理中的“短文本”,短文本的定义到底是什么?我一直无法找到明确的答案。谁能对这两个领域的“短文本”长度给出明确的定义?

我尝试搜索了很多论文,但没有看到有人明确定义短文本。我使用 Biterm 来表示短文本,但是多长的文本可以被视为短文本?这个类似答案中的论文,我也研究过,但给出了一些例子来说明它是一个简短的文本,并没有给出定义。我查了一些其他博客,有人说只要少于160个字符就是短文。但我没有找到任何学术依据。

nlp lda topic-modeling llm
1个回答
0
投票

据我所知,关于短文本的长度或定义没有明确的答案。被认为最适合短文本的模型包括WNTMBiterm,BTM给出了一个动机,即LDA等经典方法在在线社交媒体上呈现的短文本上表现不佳。这些论文使用的数据集,WNTM 的平均文档长度为 12.4、8.5,BTM 的平均文档长度为 3.9、5.21、5.87。 我建议将您的文档长度与 BTM 实验使用的文档长度相匹配,然后继续。

© www.soinside.com 2019 - 2024. All rights reserved.