PCA和SVD对相同单位的数据有不同的结果

Question

最初，我有400,000张图像被标准化（灰度值增加）。之后，我对每张图片进行了DFT，并获得了3200个绝对傅里叶系数的400000个样本的数据。

现在，我想进行PCA和SVD。 因为我的数据已经被规范化并且所有值都具有相同的单位，所以我认为我可以使用“原始数据”进行计算。但是，PCA的特征值和SVD的奇异值是不同的。（显示图像/链接）

我做错了什么？数据应如何用于PCA和SVD？标准化，标准化，原始？

请帮助我！谢谢

我的代码：

# samples 400000x3200
# SVD
U,S,VT = svd(samples, full_matrices=False) 

tot_S = sum(S)
var_exp_S = [(i / tot_S) for i in S]
cum_var_exp_S = np.cumsum(var_exp_S)

# PCA
cov_mat = np.cov(samples.T)
eigen_vals, eigen_vecs = np.linalg.eig(cov_mat)
eigen_vals = np.asarray(sorted(eigen_vals,reverse=True))

tot = sum(eigen_vals)
var_exp = [(i / tot) for i in eigen_vals]
cum_var_exp = np.cumsum(var_exp)


num= 3200
plt.figure(figsize=(10,5))
plt.subplot(121)
plt.title('PCA')
plt.step(range(1,num+1),cum_var_exp[:num], where='mid',color='r')
plt.ylabel('share of variance')
plt.xlabel('principal components')
plt.legend()
plt.grid()

plt.subplot(122)
plt.title('SVD')
plt.step(range(1,num+1),cum_var_exp_S[:num], where='mid',color='r')
plt.ylabel('share of variance')
plt.xlabel('principal components')
plt.legend()
plt.grid()

Answer 1

这里是一个例子：

import numpy as np
from scipy.linalg import svd
from sklearn.preprocessing import StandardScaler

X_train = np.asarray([[13.71,1.86,2.36,16.6],[12.22,1.29,1.94,19],
       [13.27,4.28,2.26,20],[13.16,3.57,2.15,21],
       [13.86,1.51,2.67,25]])

#PCA
sc = StandardScaler()
X_train_std = sc.fit_transform(X_train)

cov_mat = np.cov(X_train_std.T)
eigen_vals, eigen_vecs = np.linalg.eigh(cov_mat)
eigen_vals = np.asarray(sorted(eigen_vals, reverse=True))

#SVD
U,eigen_vals_S,V = svd(X_train)
eigen_vals_S2 = (eigen_vals_S**2)

print('\nEigenvalues \n%s' % eigen_vals)
print('\nS \n%s' %eigen_vals_S)
print('\nS**2 \n%s' %eigen_vals_S2)re

输出（特征值和S ** 2不同）：

特征值[2.79331043 1.28393579 0.90313734 0.01961644]

S[55.02775284 3.37434634 2.52347705 0.28664958]

S ** 2[3.02805358e + 03 1.13862132e + 01 6.36793643e + 00 8.21679822e-02]

现在有相同的结果：

#Same eigenvalues
eigen_vals, eigen_vecs = np.linalg.eigh((X_train.T).dot(X_train))
eigen_vals = np.asarray(sorted(eigen_vals, reverse=True))

#SVD
U,eigen_vals_S,V = svd(X_train)
eigen_vals_S2 = (eigen_vals_S**2)

print('\nEigenvalues \n%s' % eigen_vals)
print('\nS \n%s' %eigen_vals_S)
print('\nS**2 \n%s' %eigen_vals_S2)

输出：

特征值[3.02805358e + 03 1.13862132e + 01 6.36793643e + 00 8.21679822e-02]

S[55.02775284 3.37434634 2.52347705 0.28664958]

S ** 2[3.02805358e + 03 1.13862132e + 01 6.36793643e + 00 8.21679822e-02]

那是我不明白的。标准化和cov（）的方式是PCA的方法。但是正如您所看到的，有不同的结果，这取决于我如何计算特征值....

我是不是有什么错，或者为什么是这样？

Answer 2

PCA中有一些“规范化”。这里是我自己的PCA库中的代码：

PCA和SVD对相同单位的数据有不同的结果

问题描述投票：0回答：2

2个回答

最新问题

PCA和SVD对相同单位的数据有不同的结果

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2