如果使用K均值聚类,如果聚类中只有一个数据点,该怎么办?

问题描述 投票:0回答:1

我正在使用等分的K均值,它利用k = 2的k均值,而我在1个簇中仅遇到1个数据点。这是否意味着K-Means进程应该因为已经达到收敛而停止,还是应该使用新值重新开始算法进程?

cluster-computing cluster-analysis k-means bisection
1个回答
0
投票

1-元素簇在脏数据上以k均值出现的频率很高。

因为k均值使平方误差]最小化”,所以将离群点分配给它们自己的聚类可得出关于平方误差目标的“最佳”结果。因此,这通常是正确的结果-并不是用户真正想要的结果。通常,用户会更喜欢非平方优化(例如,使用PAM),或者具有不属于群集的“噪声”点概念的方法(例如,DBSCAN)。

© www.soinside.com 2019 - 2024. All rights reserved.