如何从该图中使用AIC和BIC方法在K均值聚类中选择K?

问题描述 投票:0回答:1

我必须通过使用 AIC 和 BIC 评分方法来确定 k 以确定 Mall_Customers.csv 中的组有 2 个变量,即支出分数 (1-100) 和年收入 (k$) enter image description here

我想要一个理论解释为什么选择那个K以及在绘制图形来识别它时寻找的原理。

python cluster-analysis k-means evaluation unsupervised-learning
1个回答
0
投票

这不是 Python 问题,而是 k 均值聚类的普遍挑战。最简单的方法是尝试几个任意的 k 值并查看结果是什么。这不是寻找正确 k 的确定性方法。

一些考验是不可避免的。但随后你必须决定什么是好的结果,什么不是。这个想法是找到针对给定 k 值找到的聚类质量的度量。

计算集群质量的一些常见措施是:

  • 在平方和内
  • 卡林斯基-哈拉巴斯
  • 轮廓宽度

因此,您必须提出一些 k 的建议,进行聚类并确定找到的聚类的质量。然后,决定要使用哪个 k 值。

© www.soinside.com 2019 - 2024. All rights reserved.