假设有一个执行PCA的程序。该程序计算所需的PC数量,以便覆盖数据中总变化的给定份额,例如, 95%。
假设在时间t = 1时使用的数据为了覆盖95%的方差所需的PC数量是10。
在t = 2时,我们用来自t = 2的数据重新运行程序。对于t = 2,为了覆盖95%的方差所需的PC数量是5。
因此,为了覆盖95%的方差,必要的PC的数量已从10 = 5从t = 1下降到t = 2。
主要问题:
在这种情况下,我们可以对t = 1到t = 2的数据变化做出任何结论吗?
例:
我们可以说:“由于PC的数量从t = 1减少到t = 2,因此t = 1时的数据与t = 2的相关性更高。数据的相关性越大,需要的PC就越少覆盖数据中特定份额的varaince。“
是的,如果原始变量具有强相关性,则组件数量的减少可以解释80%到90%的差异,并且方差百分比对应于PC保留的数据信息百分比。此外,如果您想了解有关PCA的更多详细信息,可以阅读以下评论:https://stats.stackexchange.com/questions/2691/making-sense-of-principal-component-analysis-eigenvectors-eigenvalues/140579#140579