机器学习 - 特征选择还是降维?

问题描述 投票:0回答:1

我仍在探索机器学习的这个领域,虽然我知道特征选择和维度减少之间有什么区别,但我发现在理解何时进行特征选择或维度减少(或两者兼而有之)的概念时遇到了一些困难。

假设我有一个包含大约40个特征的数据集,那么单独执行降维还是单独选择特征是不错的做法?或者是否应该采用两种方法的混合(即首先进行特征选择,然后减少维数 - 反之亦然)?

machine-learning artificial-intelligence feature-selection dimensionality-reduction
1个回答
0
投票

术语特征选择有点误导。它有两个含义:

  1. 通过结合领域知识来选择特征(这也涉及构建新特征)。 例如,当您将高度和重量作为要素时,在图像数据集中查找旋转不变点或将BMI创建为新要素。
  2. 根据某种程度仅保留高重要性的特征 这是降维过程的一个步骤。所谓的降维过程实际上包括两个步骤: 通过更改基础将原始功能转换为新的(人工)功能。 例如。 PCA通过找到一组正交特征来实现这一点,从而使沿每个轴的方差最大化。 仅保留最重要的(重要性由某些度量定义)特征导致上述步骤。这实际上是一个特征选择步骤。 例如。在PCA中,这是通过仅保留具有最高解释差异的前k个特征来实现的。

至于上述(1)和(2)的顺序应该发生:我认为这是依赖于问题的。

如果有足够的领域知识来构建/选择功能以解决手头的问题,我们应该首先进行手动特征工程(加选择)。如果此特征工程/选择过程仍然会产生大量特征,那么可以进行所谓的降维,以找到一个子空间,该子空间可以表示具有更少数量的全新特征的数据,这些特征几乎没有任何意义。现实生活。

如果领域知识无法向数据集添加任何内容,那么只需进行降维即可,其中实际上包含一个特征选择步骤。


从广义上讲,我们可以认为特征选择实际上是降维的特殊情况,其中原始数据集没有发生基础变化。

© www.soinside.com 2019 - 2024. All rights reserved.