从一组文档中提取重要的子部分和与之关联的子文档集

问题描述 投票:0回答:2

我有一套文件,所有这些文件都属于“犯罪”类别。

现在,我想将它们分类为多个(可能是重叠的)文档集群,其中每个集群都是在谋杀或绑架等子类别下形成的。

我想用某种方法来确定每个文档中出现的单个词的重要性。我已经尝试过使用TF-IDF,但它没有给我满意的结果。

cluster-analysis document tf-idf
2个回答
1
投票

另一种选择是为频繁出现的单词分配权重。然后,您可以使用k-prototypes或k-mode方法对单词进行分组。


0
投票

你需要监督。

诸如“可疑”,“枪”之类的词语可能很重要,但不会产生令人满意的类别。无监督的方法无法知道什么是“某种”犯罪。

© www.soinside.com 2019 - 2024. All rights reserved.