[我正在尝试理解csv文件中列的选择,在应用k-means时应考虑这些选择。在下面的链接中,仅年度收入和支出得分作为一栏(来自Mall_Customers.csv文件)用于可视化,而不是年龄。https://www.kaggle.com/shrutimechlearn/step-by-step-kmeans-explained-in-detail
请帮助。
它们具有3个可用于集群的功能。通常,它们只是采用所有要素的欧式距离来获得簇之间的距离。
这很容易在二维上可视化。取两个点,它们之间的距离是三角形的斜边。在三个维度上,它很难可视化。作者只是使用2维,所以她以后可以绘制它。但是,要使用所有三个维度,您只需将代码修改为:
X = dataset.iloc[:,[1:3]].values
并且将在算法中使用年龄,收入和支出得分