基于聚类的距离矩阵

基于聚类的距离矩阵

问题描述投票：21回答：3

我的目标是集群的话基础上，他们是多么相似相对于文本文档的语料库。我已经计算每对词之间的Jaccard相似。换句话说，我可以和我一起稀疏距离矩阵。任何人都可以点我到任何聚类算法（也可能是它在Python库），接受距离矩阵作为输入？我也不知道簇的数目事前。我只想群集这些话，并取得哪些词聚集在一起。

python

cluster-computing

scikit-learn

hierarchical-clustering

3个回答

14
投票

与预先计算好的距离矩阵您可以使用大多数算法scikit学习。不幸的是，你需要集群的许多算法的数量。 DBSCAN是不需要的簇的数目只有一个，并且也使用任意距离矩阵。您也可以尝试MeanShift，但作为坐标，将解释的距离 - 这可能也是工作。

还有affinity propagation，但我还没有真正看到，运作良好。如果你想许多群集，可能会有所帮助，但。

披露：我是一个scikit学习核心开发。

8
投票

该SciPy的集群方案可能是有用的（scipy.cluster）。有在scipy.cluster.hierarchy层次聚类功能。但是请注意，那些需要稠矩阵作为输入（距离矩阵的上三角）。希望该文件的网页会帮助你一起。

-3
投票

推荐给看看合并聚类。