如何选择哪些列适合k-Means聚类算法的可视化？

[我正在尝试理解csv文件中列的选择，在应用k-means时应考虑这些选择。在下面的链接中，仅年度收入和支出得分作为一栏（来自Mall_Customers.csv文件）用于可视化，而不是年龄。https://www.kaggle.com/shrutimechlearn/step-by-step-kmeans-explained-in-detail

请帮助。

python numpy machine-learning k-means kaggle

0
投票

它们具有3个可用于集群的功能。通常，它们只是采用所有要素的欧式距离来获得簇之间的距离。

这很容易在二维上可视化。取两个点，它们之间的距离是三角形的斜边。在三个维度上，它很难可视化。作者只是使用2维，所以她以后可以绘制它。但是，要使用所有三个维度，您只需将代码修改为：

X = dataset.iloc[:,[1:3]].values

并且将在算法中使用年龄，收入和支出得分