有哪些评估聚类相似度的方法？

问题描述投票：0回答：1

假设我有两种方法对同一数据集进行聚类，并希望计算其输出的相似度。我将不得不计算类似于相关性的内容，但是簇标签是一个分类变量。我曾考虑过使用卡方，但是当列联表中的多个单元格小于5时，不建议这样做（当聚类非常相似时，通常会发生这种情况）。另一个线索是使用Fisher的精确测试，但是Python scipy实现仅适用于2x2偶发矩阵，而我可能会使用更大的矩阵（例如10x10或8x6）。

还有其他确定的以这种方式比较聚类的方法吗？它们有Python实现吗？

python

statistics

cluster-analysis

evaluation

1个回答

0
投票

https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation中存在出色的Python实现。每一个都有自己的优点和缺点。既用于比较聚类结果与其基础真值标签（外部），又用于根据诸如聚类质心之间的距离（内部）等标准评估聚类结果。权变矩阵可以很好地了解您的聚类，但不能提供数值来“证明您的聚类很好”。

如果您的数据集非常庞大且具有许多维度，则内部验证措施可能会非常缓慢。

有哪些评估聚类相似度的方法？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1