此kmeans聚类的最佳k是多少? (弯头图)

问题描述 投票:0回答:1

我正在尝试kmeans来寻找在首尔地铁站附近开设咖啡店的最佳地点。

包含的功能是:

  1. 在特定车站上的每月下车总数
  2. 特定车站附近的租金
  3. 特定车站附近的现有咖啡店数量

我决定使用弯头找到最佳的k。在运行kmeans之前,我确实对所有功能进行了标准化。

Elbow point plot for the data

现在肘点似乎是k = 3(或k = 2),但我认为SSE对于肘点来说太高了。

也使用k = 3,由于只有三个,因此很难从集群中获得洞察力。

使用k = 5是获得洞察力的最佳途径。

即使不是肘点,也可以使用k = 5来证明吗?

或者kmeans首先不是一个好的选择吗?

python python-3.x machine-learning cluster-analysis k-means
1个回答
0
投票

肘点不是确定的规则,而是更多是一种启发式方法(它在大多数时间都有效,但并非总是如此,我认为它更像是选择数字的良好经验法则的集群开始)。最重要的是,不能总是明确地确定肘点,因此您不必为此担心太多。

因此,在这种情况下,如果使用k=5可以更好地了解/理解数据,那么我强烈建议您使用k=5而不是k=3

现在,对于您的另一个问题,也许有一些方法可以更好地适合您的数据,但这并不意味着k均值并不是一个好的开始。如果您想尝试其他方法,可以使用scikit-learndocumentation很好地了解进行聚类时要使用哪种算法或方法。

© www.soinside.com 2019 - 2024. All rights reserved.