如果使用K均值聚类，如果聚类中只有一个数据点，该怎么办？

Question

我正在使用等分的K均值，它利用k = 2的k均值，而我在1个簇中仅遇到1个数据点。这是否意味着K-Means进程应该因为已经达到收敛而停止，还是应该使用新值重新开始算法进程？

Answer 1

1-元素簇在脏数据上以k均值出现的频率很高。

因为k均值使平方误差]最小化”，所以将离群点分配给它们自己的聚类可得出关于平方误差目标的“最佳”结果。因此，这通常是正确的结果-并不是用户真正想要的结果。通常，用户会更喜欢非平方优化（例如，使用PAM），或者具有不属于群集的“噪声”点概念的方法（例如，DBSCAN）。