我目前有一个文档列表,我已经使用无监督主题建模进行分类。
这对我的数据很有效,但我想使用监督方法来查看什么有效。
问题是我没有这些文档的标签,但我确实从每个文档中提取了 n-grams。
我正在寻找使用他们的 ngram 标记我的文档的最佳方法。
由于下一个原因,我认为它具有挑战性,例如我们有:
Document 1 ngrams: python, numpy, pandas
Document 2 ngrams: python, pandas, nlp
Document 3 ngrams: python, numpy, pandas, nlp
如您所见,如果我只是将标签设为
python_numpy_pandas
,那么该文档将与python_numpy_pandas_nlp
不同,但它们实际上可能是相关的。
对此有什么想法吗?有什么方法可以管理多标签主题建模吗?