使用 k 均值算法,我需要确定要作为输入传递的 k 值。为此,我决定使用肘部图来获得以下图表:
获得的惯性值如下:
736239923539.9097
93742447688.49702
71272730629.54999
54623438826.442375
43671447719.38351
37562535688.91262
31541227487.60234
26081567621.882618
20768215373.878544
16998166656.734137
选择 k=2 是否正确,还是 k=3 或 4 更好?为什么?
这在一定程度上取决于您的 k 均值聚类的实际用例,以了解 k 输入最好。惯性在 1 到 2 后显着下降,从那时起下降幅度较小。我的猜测是,任何大于 2 的值就足够了,但额外的簇可能是有益的。 K 越大意味着训练和推理速度越慢,因此这是您必须考虑的权衡。