如何选择哪些列适合k-Means聚类算法的可视化?

问题描述 投票:0回答:1

[我正在尝试理解csv文件中列的选择,在应用k-means时应考虑这些选择。在下面的链接中,仅年度收入和支出得分作为一栏(来自Mall_Customers.csv文件)用于可视化,而不是年龄。https://www.kaggle.com/shrutimechlearn/step-by-step-kmeans-explained-in-detail

请帮助。

python numpy machine-learning k-means kaggle
1个回答
0
投票

它们具有3个可用于集群的功能。通常,它们只是采用所有要素的欧式距离来获得簇之间的距离。

这很容易在二维上可视化。取两个点,它们之间的距离是三角形的斜边。在三个维度上,它很难可视化。作者只是使用2维,所以她以后可以绘制它。但是,要使用所有三个维度,您只需将代码修改为:

X = dataset.iloc[:,[1:3]].values

并且将在算法中使用年龄,收入和支出得分

© www.soinside.com 2019 - 2024. All rights reserved.