Scikit-Learn PCA

Question

我正在使用here的输入数据（请参阅第3.1节。

我正在尝试使用scikit-learn重现其协方差矩阵，特征值和特征向量。但是，我无法重现数据源中显示的结果。我还在其他地方看到过此输入数据，但无法确定scikit-learn，我的步骤还是数据源是否有问题。

data = np.array([[2.5,2.4],
                 [0.5,0.7],
                 [2.2,2.9],
                 [1.9,2.2],
                 [3.1,3.0],
                 [2.3,2.7],
                 [2.0,1.6],
                 [1.0,1.1],
                 [1.5,1.6],
                 [1.1,0.9],
                 ]) 

centered_data = data-data.mean(axis=0)
pca = PCA()
pca.fit(centered_data)
print(pca.get_covariance()) #Covariance Matrix

array([[ 0.5549,  0.5539],
   [ 0.5539,  0.6449]])

print(pca.explained_variance_ratio_) #Eigenvalues (normalized)

[ 0.96318131  0.03681869]

print(pca.components_) #Eigenvectors

[[-0.6778734  -0.73517866]
 [ 0.73517866 -0.6778734 ]]

令人惊讶的是，投影与上述数据源的结果匹配。

print(pca.transform(centered_data)) #Projections

array([[-0.82797019,  0.17511531],
   [ 1.77758033, -0.14285723],
   [-0.99219749, -0.38437499],
   [-0.27421042, -0.13041721],
   [-1.67580142,  0.20949846],
   [-0.9129491 , -0.17528244],
   [ 0.09910944,  0.3498247 ],
   [ 1.14457216, -0.04641726],
   [ 0.43804614, -0.01776463],
   [ 1.22382056,  0.16267529]])

这是我不明白的地方：

为什么协方差矩阵不同？
更新：如何从scikit-learn中获得尚未归一化的特征值？

Answer 1

此数据的正确协方差矩阵：

numpy.cov(data.transpose())

array([[ 0.61655556,  0.61544444],
       [ 0.61544444,  0.71655556]])

偏差（即“不正确”，使用错误的归一化术语，并且低估了数据集中的方差）协方差矩阵：

numpy.cov(data.transpose(), bias=1)

array([[ 0.5549,  0.5539],
       [ 0.5539,  0.6449]])

Numpy知道您必须将数据居中-因此您不需要centered_data。

PCA分量是特征值not 1：1。

正确的特征值分解：

numpy.linalg.eig(numpy.cov(data.transpose()))

(array([ 0.0490834 ,  1.28402771]),
 array([[-0.73517866, -0.6778734 ],
        [ 0.6778734 , -0.73517866]]))

使用有偏估计量会产生不同的特征值（再次低估方差），但特征向量相同：

(array([ 0.04417506,  1.15562494]), ...

请注意，特征向量尚未按最大特征值排序。

正如pca.explained_variance_ratio_的名称所示，这些不是特征值。它们是比率。如果我们采用（有偏的，低估的）特征值，并将它们归一化为总和为1，则得到

s/sum(s)

array([ 0.03681869,  0.96318131])

另外，scipy的pca.transform方法显然没有not应用缩放。恕我直言，在使用PCA时，将每个组件缩放为具有单位差异也很普遍。这显然不适用于此输出。然后结果将是（交换两列，我没有费心去改变它）

s, e = numpy.linalg.eig(numpy.cov(data.transpose()))
o=numpy.argsort(s)[::-1]
(data-mean).dot(e[:,o]) / numpy.sqrt(s[o])

array([[-0.73068047, -0.79041795],
       [ 1.56870773,  0.64481466],
       [-0.87561043,  1.73495337],
       [-0.24198963,  0.58866414],
       [-1.47888824, -0.94561319],
       [-0.80567404,  0.79117236],
       [ 0.08746369, -1.57900372],
       [ 1.01008049,  0.20951358],
       [ 0.38657401,  0.08018421],
       [ 1.08001688, -0.73426743]])

（（如您所见，PCA在numpy中仅是三行，因此您不需要此功能。）

为什么我认为这是正确的结果？因为所得数据集具有其协方差矩阵的属性（舍入误差除外），所以identity矩阵。如果不进行缩放，则协方差矩阵为numpy.diag(s[o])。但是也有人可能会争辩说，通过应用缩放比例，我“丢失”了方差信息，否则该信息将保留。

我认为，`scipy`使用了错误的（有偏的）协方差。 `numpy`是正确的。

但是，通常情况并不重要。在上面的中，偏差被抵消。而且，如果您的数据集很大，则使用朴素的1/n和无偏的1/(n-1)之间的差异最终将变得微不足道。但是，差异实际上是零CPU成本，因此您最好使用无偏方差估计。

Answer 2

（1）的简短答案是，当您将PCA应用于经过处理的数据时，已对其进行了旋转，并且新的向量空间表示具有不同协方差的新随机变量。（2）的答案是，如果您想要非归一化的特征值，只需特征分解数据的协方差矩阵即可。

Scikit-Learn PCA

问题描述投票：13回答：2

2个回答

我认为，`scipy`使用了错误的（有偏的）协方差。 `numpy`是正确的。

最新问题

Scikit-Learn PCA

问题描述 投票：13回答：2

2个回答

我认为，scipy使用了错误的（有偏的）协方差。 numpy是正确的。

最新问题

问题描述投票：13回答：2

我认为，`scipy`使用了错误的（有偏的）协方差。 `numpy`是正确的。