相关性在非监督学习（聚类）中是否重要？

问题描述投票：0回答：1

我正在使用大小为（500，33）的数据集。

特别是数据集包含9个特征，例如

[X_High, X_medium, X_low, Y_High, Y_medium, Y_low, Z_High, Z_medium, Z_low]

在视觉上和相关矩阵计算之后，我都观察到

[[X_High，Y_High，Z_High]和[X_medium，Y_medium，Z_medium]和[X_low，Y_low，Z_low]高度相关（大于85％）。

我想执行聚类算法（例如，K表示GMM或DBSCAN）。

在这种情况下，

是否有必要删除无监督学习的相关功能？是否删除关联或修改功能会产生任何影响？

python

machine-learning

correlation

unsupervised-learning

feature-engineering

1个回答

1
投票

我在这里的假设是，您问这个问题是因为在线性建模的情况下，高度共线的变量可能会引起问题。

简短的答案是不，您不需要出于共线性问题而从聚类中删除高度相关的变量。聚类不依赖于线性假设，因此共线性不会引起问题。

这并不意味着使用一堆高度相关的变量是一件好事。您的功能可能过于冗余，并且您使用的数据可能要多于达到相同模式所需的数据。设置数据大小/功能可能不成问题，但是对于大数据，您可以通过PCA /降维来利用相关变量来减少计算开销。