如何使用n-gram标注文本文档?

问题描述 投票:0回答:0

我目前有一个文档列表,我已经使用无监督主题建模进行分类。

这对我的数据很有效,但我想使用监督方法来查看什么有效。

问题是我没有这些文档的标签,但我确实从每个文档中提取了 n-grams。

我正在寻找使用他们的 ngram 标记我的文档的最佳方法。

由于下一个原因,我认为它具有挑战性,例如我们有:

Document 1 ngrams: python, numpy, pandas
Document 2 ngrams: python, pandas, nlp
Document 3 ngrams: python, numpy, pandas, nlp

如您所见,如果我只是将标签设为

python_numpy_pandas
,那么该文档将与
python_numpy_pandas_nlp
不同,但它们实际上可能是相关的。

对此有什么想法吗?有什么方法可以管理多标签主题建模吗?

python nlp topic-modeling n-gram
© www.soinside.com 2019 - 2024. All rights reserved.