使用k-gram索引的主题分类

问题描述 投票:0回答:1

我有一组主题,每个主题都有一个关键字列表。 {Sports:['Ronaldo Messi Zidane','Football Baseball', 'Barcelona Real']...}

任务是对特定文档进行分类。分类也可以是多标签的。文档可以属于topic1,topic2等。我没有足够的数据,因此无法使用机器学习解决问题。因为我想检索高度精确的文档,所以我使用k-gram index处理了此问题。

我将给定的一组主题关键字视为查询,并围绕它建立了一个k-gram索引。因此,我将所有键作为字符二元组,并将值作为包含二元组的术语。这些术语是我要分类的文档中存在的术语。在遍历主题的每个关键字的发布列表之后,我得到了一组候选术语及其对应的jaccard相似度得分。

  1. 在一个主题内,我如何合并所有候选词的jaccard分数?
  2. 在所有主题中,如何确定此文档属于哪个主题?
  3. 您认为这种方法可以给我带来高精度的结果吗?

谢谢。

python nlp data-mining information-retrieval
1个回答
0
投票
© www.soinside.com 2019 - 2024. All rights reserved.