我什么时候应该进行特征选择?

问题描述 投票:0回答:1

我正在运行一些机器学习算法来训练模型。

到目前为止,我一直在做相关矩阵,以便选择与目标变量相关性最高的特征。

我在网上读到,除非我运行逻辑回归,否则不需要进行此选择。这是真的吗?

我运行的算法是逻辑回归、决策树、SVM、KNN 和朴素贝叶斯。

我是否应该使用具有除 Logistic 回归之外的所有算法的所有特征的训练集以及仅包含 Logistic 回归最相关变量的另一个版本?

machine-learning logistic-regression training-data supervised-learning
1个回答
0
投票

嗯,一如既往,取决于您的数据。我想说,如果你有足够的数据,每个模型(包括逻辑回归)都应该能够“学习”哪些是重要的特征,哪些不是。例如,如果您使用 sklearn,则可以在训练模型后尝试使用

feature_imoortance
方法,您会看到得到的结果与相关性中得到的结果类似。

如果你的数据很少,我想这可能是一种很好的正则化技术,因为它是消除噪声的一种方法。

如果可能的话,我会尝试始终使用所有功能,而不是将其发挥到极致。也就是说,例如,如果我试图预测房价,并且我有一个特征,即每个马拉松运动员上一次马拉松跑的速度有多快,我肯定会放弃该列。

© www.soinside.com 2019 - 2024. All rights reserved.