相关性在非监督学习(聚类)中是否重要?

问题描述 投票:0回答:1

我正在使用大小为(500,33)的数据集。

特别是数据集包含9个特征,例如

[X_High, X_medium, X_low, Y_High, Y_medium, Y_low, Z_High, Z_medium, Z_low]

在视觉上和相关矩阵计算之后,我都观察到

[[X_High,Y_High,Z_High]和[X_medium,Y_medium,Z_medium]和[X_low,Y_low,Z_low]高度相关(大于85%)。

我想执行聚类算法(例如,K表示GMM或DBSCAN)。

在这种情况下,

是否有必要删除无监督学习的相关功能?是否删除关联或修改功能会产生任何影响?

python machine-learning correlation unsupervised-learning feature-engineering
1个回答
1
投票

我在这里的假设是,您问这个问题是因为在线性建模的情况下,高度共线的变量可能会引起问题。

简短的答案是不,您不需要出于共线性问题而从聚类中删除高度相关的变量。聚类不依赖于线性假设,因此共线性不会引起问题。

这并不意味着使用一堆高度相关的变量是一件好事。您的功能可能过于冗余,并且您使用的数据可能要多于达到相同模式所需的数据。设置数据大小/功能可能不成问题,但是对于大数据,您可以通过PCA /降维来利用相关变量来减少计算开销。

© www.soinside.com 2019 - 2024. All rights reserved.