如何在监督机器学习分类问题中使用主成分分析？

我一直在研究 R 中的主成分分析的概念。

我很乐意将 PCA 应用于（比如，标记的）数据集，并最终从我的矩阵中提取出最有趣的前几个主成分作为数字变量。

最终的问题是，从某种意义上说，现在怎么办？我在 PCA 上遇到的大部分阅读在计算完成后立即停止，特别是关于机器学习。请原谅我的夸张，但我觉得好像每个人都同意该技术是有用的，但没有人愿意在他们使用它之后真正使用它。

更具体地说，这是我真正的问题：

我尊重主成分是您开始使用的变量的线性组合。那么，这种转换后的数据如何在监督机器学习中发挥作用呢？怎么会有人使用 PCA 来降低数据集的维度，然后将这些组件与受监督的学习器（例如 SVM）一起使用？

我对我们的标签发生了什么感到非常困惑。一旦我们进入本征空间，那就太好了。但如果这种转变打破了我们的分类概念，我看不出有任何方法可以继续推进机器学习（除非我没有遇到过“是”或“否”的某种线性组合！）

9
投票

老问题，但我不认为它得到了令人满意的回答（我刚刚通过谷歌来到这里）。我发现自己和你一样，不得不自己寻找答案。

PCA的目标是用正交基W表示你的数据X；你的数据在这个新基础上的坐标是 Z，如下所示：

X = ZW'

由于正交性，我们可以简单地通过转置来反转 W 并写成：

XW = Z

现在为了降低维度，让我们选择一些组件 k < p. Assuming our basis vectors in W are ordered from largest to smallest (i.e., eigenvector corresponding to the largest eigenvalue is first, etc.), this amounts to simply keeping the first k columns of W.

XW = Z