为什么我们在主成分分析期间最大化方差?

问题描述 投票:10回答:3

我试图通过PCA阅读并发现目标是最大化方差。我不太明白为什么。对其他相关主题的任何解释都会有所帮助

machine-learning feature-extraction
3个回答
14
投票

方差衡量您所拥有数据的“可变性”。组件的数量可能是无限的,因此您希望“挤压”您构建的有限集的每个组件中的大多数信息。

如果夸大,你要选择一个主要组件,你会希望它考虑到最大的可变性:因此搜索最大方差,以便一个组件从数据集中收集最“唯一性”。


7
投票

请注意,PCA实际上不会增加​​数据的方差。相反,它以这样的方式旋转数据集,以便使用主轴对齐最广泛的方向。这使您可以删除数据几乎平坦的维度。这降低了数据的维数,同时保持点之间的方差(或扩展)尽可能接近原始值。


5
投票

最大化分量矢量方差与最大化这些矢量的“唯一性”相同。因此,你的矢量尽可能远离彼此。这样,如果你只使用前N个分量矢量,你将使用高度变化的矢量捕获更多的空间,而不是像相似的矢量。想想主要组件实际上意味着什么。

例如,在3D空间中有2条正交的线。您可以使用那些正交线完全捕获环境,而不是平行(或几乎平行)的2条线。当使用非常少的向量应用于非常高的维度状态时,这成为要维持的向量之间更重要的关系。在线性代数意义上,您希望PCA生成独立的行,否则这些行中的一些将是多余的。

有关基本解释,请参阅此PDF from Princeton's CS Department

© www.soinside.com 2019 - 2024. All rights reserved.