Rstart中k均值的nstart

问题描述 投票:0回答:1

[在许多地方的搜索结果报告说,R函数nstart中的参数kmeans设置了算法的多次迭代并选择了“最佳算法”,例如,参见https://datascience.stackexchange.com/questions/11485/k-means-in-r-usage-of-nstart-parameter。任何人都可以在如何做到这一点上提供任何清晰度,即,它以什么方式定义最好?

第二:R的kmeans函数采用参数centers。在这里,按照k均值的典型方法,可以通过从数据集中选择行(数据点)作为初始质心,从而在算法开始期望最大化之前初始化质心。 (您也可以付出更大的努力,以向量形式提供存在于数据集中的点[[not。在这种情况下,理论上您可以选择全局最优值作为质心。这是not] > [我要的是什么。]当nstart或种子将初始化随机化时,我很确定是通过从数据集中选择质心并从中选择质心来实现的(不仅仅是随机的质心集)。在空间内的点)。因此,总的来说,我正在寻找一种方法来获取一组良好的(例如,从$ n $试验中获得最好的结果,或者从nstart中获得最好的结果)一组起始数据实例

来自数据集

作为初始质心。有什么方法可以从nstart中提取“获胜”(=最佳)初始质心集(以后我可以在centers参数中使用它)?是否有任何其他简化而又快速的方法来获得一组很好的起始质心(大概与聚类中心最终所处的位置相当接近)?至少,至少有一种方法可以从给定的kmeans运行中提取其选择的起始质心是什么?

[在许多地方的搜索结果报告说,R函数kmeans中的参数nstart设置了算法的多次迭代并选择了“最佳算法”,例如https:// datascience ....

r cluster-analysis k-means centroid
1个回答
0
投票
[kmeans试图最小化的标准是内部散布矩阵的踪迹,即(不幸的是,该论坛不支持LaTeX,但希望您仍然可以阅读它:]]
© www.soinside.com 2019 - 2024. All rights reserved.