从一组文档中提取重要的子部分和与之关联的子文档集

问题描述投票：0回答：2

我有一套文件，所有这些文件都属于“犯罪”类别。

现在，我想将它们分类为多个（可能是重叠的）文档集群，其中每个集群都是在谋杀或绑架等子类别下形成的。

我想用某种方法来确定每个文档中出现的单个词的重要性。我已经尝试过使用TF-IDF，但它没有给我满意的结果。

cluster-analysis

document

tf-idf

2个回答

1
投票

另一种选择是为频繁出现的单词分配权重。然后，您可以使用k-prototypes或k-mode方法对单词进行分组。

0
投票

你需要监督。

诸如“可疑”，“枪”之类的词语可能很重要，但不会产生令人满意的类别。无监督的方法无法知道什么是“某种”犯罪。