此kmeans聚类的最佳k是多少？（弯头图）

Question

我正在尝试kmeans来寻找在首尔地铁站附近开设咖啡店的最佳地点。

包含的功能是：

我决定使用弯头找到最佳的k。在运行kmeans之前，我确实对所有功能进行了标准化。

现在肘点似乎是k = 3（或k = 2），但我认为SSE对于肘点来说太高了。

也使用k = 3，由于只有三个，因此很难从集群中获得洞察力。

使用k = 5是获得洞察力的最佳途径。

即使不是肘点，也可以使用k = 5来证明吗？

或者kmeans首先不是一个好的选择吗？

Answer 1

肘点不是确定的规则，而是更多是一种启发式方法（它在大多数时间都有效，但并非总是如此，我认为它更像是选择数字的良好经验法则的集群开始）。最重要的是，不能总是明确地确定肘点，因此您不必为此担心太多。

因此，在这种情况下，如果使用k=5可以更好地了解/理解数据，那么我强烈建议您使用k=5而不是k=3！

现在，对于您的另一个问题，也许有一些方法可以更好地适合您的数据，但这并不意味着k均值并不是一个好的开始。如果您想尝试其他方法，可以使用scikit-learn库documentation很好地了解进行聚类时要使用哪种算法或方法。

此kmeans聚类的最佳k是多少？ （弯头图）