有哪些评估聚类相似度的方法?

问题描述 投票:0回答:1

假设我有两种方法对同一数据集进行聚类,并希望计算其输出的相似度。我将不得不计算类似于相关性的内容,但是簇标签是一个分类变量。我曾考虑过使用卡方,但是当列联表中的多个单元格小于5时,不建议这样做(当聚类非常相似时,通常会发生这种情况)。另一个线索是使用Fisher的精确测试,但是Python scipy实现仅适用于2x2偶发矩阵,而我可能会使用更大的矩阵(例如10x10或8x6)。

还有其他确定的以这种方式比较聚类的方法吗?它们有Python实现吗?

python statistics cluster-analysis evaluation
1个回答
0
投票

https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation中存在出色的Python实现。每一个都有自己的优点和缺点。既用于比较聚类结果与其基础真值标签(外部),又用于根据诸如聚类质心之间的距离(内部)等标准评估聚类结果。权变矩阵可以很好地了解您的聚类,但不能提供数值来“证明您的聚类很好”。

如果您的数据集非常庞大且具有许多维度,则内部验证措施可能会非常缓慢。

© www.soinside.com 2019 - 2024. All rights reserved.