术语:
组件:PC
[loading-score[i,j]
:j
中的PC[i]
功能
问题:
我知道有关特征选择的问题在StackOverflow(SO)和其他技术页面上曾多次问过,它提出了不同的答案/讨论。这就是为什么我要针对不同的解决方案进行讨论,而不是将其作为一般问题发布,因为这样做已经完成。
[建议使用PCA选择特征的不同方法:例如,使用原始特征和分量(here)之间的点积来获得它们的相关性,SO here上的讨论建议您只能将重要特征作为组件中的加载分数(而不是在输入空间中使用该重要性),SO上的另一次讨论(我目前无法找到)表明,feature[j]
的重要性为abs(sum(loading_score[:,j])
,即所有loading_score[i,j]
分量的i
绝对值。
我个人认为获得特征重要性的方法是绝对总和,其中每个loading_score[i,j]
由分量i
的解释方差加权,即
imp_feature[j]=sum_i (abs(loading_score[i,j])*explained_variance[i]
。
嗯,没有通用的方法来选择特征;它完全取决于数据集和有关数据集的一些见解。我将提供一些可能有用的示例。