我有一套文件,所有这些文件都属于“犯罪”类别。
现在,我想将它们分类为多个(可能是重叠的)文档集群,其中每个集群都是在谋杀或绑架等子类别下形成的。
我想用某种方法来确定每个文档中出现的单个词的重要性。我已经尝试过使用TF-IDF,但它没有给我满意的结果。
另一种选择是为频繁出现的单词分配权重。然后,您可以使用k-prototypes或k-mode方法对单词进行分组。
你需要监督。
诸如“可疑”,“枪”之类的词语可能很重要,但不会产生令人满意的类别。无监督的方法无法知道什么是“某种”犯罪。