我仍在探索机器学习的这个领域,虽然我知道特征选择和维度减少之间有什么区别,但我发现在理解何时进行特征选择或维度减少(或两者兼而有之)的概念时遇到了一些困难。
假设我有一个包含大约40个特征的数据集,那么单独执行降维还是单独选择特征是不错的做法?或者是否应该采用两种方法的混合(即首先进行特征选择,然后减少维数 - 反之亦然)?
术语特征选择有点误导。它有两个含义:
至于上述(1)和(2)的顺序应该发生:我认为这是依赖于问题的。
如果有足够的领域知识来构建/选择功能以解决手头的问题,我们应该首先进行手动特征工程(加选择)。如果此特征工程/选择过程仍然会产生大量特征,那么可以进行所谓的降维,以找到一个子空间,该子空间可以表示具有更少数量的全新特征的数据,这些特征几乎没有任何意义。现实生活。
如果领域知识无法向数据集添加任何内容,那么只需进行降维即可,其中实际上包含一个特征选择步骤。
从广义上讲,我们可以认为特征选择实际上是降维的特殊情况,其中原始数据集没有发生基础变化。