基于聚类的距离矩阵

问题描述 投票:21回答:3

我的目标是集群的话基础上,他们是多么相似相对于文本文档的语料库。我已经计算每对词之间的Jaccard相似。换句话说,我可以和我一起稀疏距离矩阵。任何人都可以点我到任何聚类算法(也可能是它在Python库),接受距离矩阵作为输入?我也不知道簇的数目事前。我只想群集这些话,并取得哪些词聚集在一起。

python cluster-computing scikit-learn hierarchical-clustering
3个回答
14
投票

与预先计算好的距离矩阵您可以使用大多数算法scikit学习。不幸的是,你需要集群的许多算法的数量。 DBSCAN是不需要的簇的数目只有一个,并且也使用任意距离矩阵。您也可以尝试MeanShift,但作为坐标,将解释的距离 - 这可能也是工作。

还有affinity propagation,但我还没有真正看到,运作良好。如果你想许多群集,可能会有所帮助,但。

披露:我是一个scikit学习核心开发。


8
投票

该SciPy的集群方案可能是有用的(scipy.cluster)。有在scipy.cluster.hierarchy层次聚类功能。但是请注意,那些需要稠矩阵作为输入(距离矩阵的上三角)。希望该文件的网页会帮助你一起。


-3
投票

推荐给看看合并聚类。

© www.soinside.com 2019 - 2024. All rights reserved.