我正在使用大小为(500,33)的数据集。
特别是数据集包含9个特征,例如
[X_High, X_medium, X_low, Y_High, Y_medium, Y_low, Z_High, Z_medium, Z_low]
在视觉上和相关矩阵计算之后,我都观察到
[[X_High,Y_High,Z_High]和[X_medium,Y_medium,Z_medium]和[X_low,Y_low,Z_low]高度相关(大于85%)。
我想执行聚类算法(例如,K表示GMM或DBSCAN)。
在这种情况下,
是否有必要删除无监督学习的相关功能?是否删除关联或修改功能会产生任何影响?
我在这里的假设是,您问这个问题是因为在线性建模的情况下,高度共线的变量可能会引起问题。
简短的答案是不,您不需要出于共线性问题而从聚类中删除高度相关的变量。聚类不依赖于线性假设,因此共线性不会引起问题。
这并不意味着使用一堆高度相关的变量是一件好事。您的功能可能过于冗余,并且您使用的数据可能要多于达到相同模式所需的数据。设置数据大小/功能可能不成问题,但是对于大数据,您可以通过PCA /降维来利用相关变量来减少计算开销。