我正在使用等分的K均值,它利用k = 2的k均值,而我在1个簇中仅遇到1个数据点。这是否意味着K-Means进程应该因为已经达到收敛而停止,还是应该使用新值重新开始算法进程?
1-元素簇在脏数据上以k均值出现的频率很高。
因为k均值使平方误差]最小化”,所以将离群点分配给它们自己的聚类可得出关于平方误差目标的“最佳”结果。因此,这通常是正确的结果-并不是用户真正想要的结果。通常,用户会更喜欢非平方优化(例如,使用PAM),或者具有不属于群集的“噪声”点概念的方法(例如,DBSCAN)。