此问题的重点是:我应保留哪些组件?
有一个具有这种结构的数据集:
每一行都与目录中的图像相关联。变量置信度是一个始终为1的虚拟值。
识别对象的坐标名称是:XMin, XMax, YMin, YMax.
图像特征名称为:IsOccluded, IsTruncated, IsGroupOf, IsDepiction, IsInside.
因此,我制作了一个相关表,下面显示了与图像中的点相对应的4个分量是必需的。
然后制作了一个表格,其中包含主要组成部分及其解释方差比,如下所示。
之后使用sklearn的PCA,它显示了组件的数量及其累积的解释方差。
我从所有这一切解释为,完全有必要使用4个坐标。
¿我如何证明图像的特征不相关?
最后一个YMin坐标的累积解释方差百分比很小
这是错误的,因为PCA会为您提供每个主要成分而不是原始基础的每个变量的累积解释方差。
它告诉您的是,您只能在3个维度上而不是N上进行数据投影,同时仍保留70%的可变性,而如果保留4个维度,则可以保留80%的可变性。但是只有在特定的基础更改(PC的更改)之后,才删除一些初始变量。
要了解初始变量的重要性,您可以看一下主要成分的矢量表示形式:它们的每个坐标都是用于构成此成分的相应初始变量的数量。
完全需要4个坐标
取决于您对“必要”的解释