虽然KMeans算法将大型数据集聚在一起,但是为了找到K的最佳值,我们可以使用以下代码片段:
model = KMeans()
visualizer = KElbowVisualizer(model, k=(min_value, max_value), timings=False, locate_elbow=True)
visualizer.fit(data)
no_of_clusters= visualizer.elbow_value_
在此,我们指定应获取K值的范围(最小值和最大值)。对于大型数据集(例如:100万行),我们如何找到这些范围的最佳组合,从而节省大量执行时间?
实际上决定集群主要取决于您的应用程序。
关于如何达到K的合理范围的好问题。您有几种情况需要解决。