长文本主题建模差异

问题描述 投票:0回答:1

我有一些很长的文档。他们的总体主题相当标准,但每个文档都会以不同的方式强调主题,并且在这些主题中它们将有不同的子主题

我想确定 1. 每个文档中每个主题的重要性/概率(即文档 1 比文档 2 更强调主题 3)和 2. 每个主题的子主题及其概率。 我主要看到 bertopic 和 top2vec 用于短文本,如推文。

对于很长的文档来说,它们是合适的策略吗?对于很长的文档有更好的策略吗?

nlp gensim topic-modeling top2vec
1个回答
0
投票

并且,在您尝试各种技术并观察它们在哪里有效或无效,并更好地了解您希望但缺乏什么之后,

然后

您将能够提出更详细的问题,这些问题可以产生更好的洞察力。 大多数主题建模选项将按文档提供每个主题的相对分数。所以,是的,您将了解哪些文档与某些主题相对更相关。

许多方法不一定创建其他更高级别主题的分层“子主题”,因此如果这是一个要求,可能需要额外的努力/步骤。

如果您的文档特别长,您可能会发现将它们拆分为子文档很有用,这样您就可以获得对文档的全部多样性更加敏感的主题分析,并且可以指出主题所在的特定位置。理想情况下,这种拆分可以与文档自己的部分/章节相匹配 - 但即使是纯粹的机械拆分也可以帮助您检测/描述主题中比完整大文档分析所揭示的更精细的变化。

© www.soinside.com 2019 - 2024. All rights reserved.