k-means用于文本聚类

k-means用于文本聚类

问题描述投票：0回答：2

我正在尝试为文本聚类实现k-means，特别是英语句子。到目前为止，我正处于每个文档（句子）都有一个术语频率矩阵的位置。我对文本数据的k-means的实际实现有点困惑。这是我对它应该如何工作的猜测。

感谢您的任何见解！

algorithm

k-means

2个回答

1
投票

评论有点长。

如果您有文档术语矩阵，则找到（协方差矩阵的）主成分。确定主成分空间中原始数据的系数。您可以在此空间中进行k-means聚类。

对于文本数据，您通常需要一堆维度--20,50,100甚至更多。另外，我会推荐高斯混合模型/期望最大化聚类而不是k均值，但这是另一个故事。

1
投票

在这里复活一个稍微陈旧的问题，但值得将两者联系起来......

通常，您使用某种局部敏感的散列而不是依赖于单词出现的频率。但无论哪种方式，手动组装特征矩阵都是一个巨大的麻烦。

这个SO answer为您提供了如何使用scikit-learn和解释步骤从文档列表创建特征矩阵的指南。我认为这有助于向您展示所需的步骤顺序。