随机森林分类器使用Top-N特征方法去除特征

问题描述 投票:0回答:1

我是数据科学和机器学习技术和流程的新手。我正在开展一个个人项目,该项目使用随机森林分类器预测 NBA 比赛的获胜者。我试图删除和修改我的功能列表,以便提高准确性并减少噪音。

我实现了在这里找到的解决方案:https://datascience.stackexchange.com/questions/57697/decision-trees-should-we-discard-low-importance-features,我将在其中循环遍历最重要的前 N 个特征并绘制出结果的准确性。在我的所有功能都经过该循环之后,我留下了一个如下所示的图:

如您所见,生成的图表有点到处都是。我是否要删除具有负斜率的要素?或者说删除特征的门槛是多少?有没有更好的方法来计算噪声?鉴于我有如此多的特征,对训练数据上的模型准确性产生如此多的影响,我如何获得最准确的模型?

machine-learning random-forest feature-selection
1个回答
0
投票

在 ML/DL 中,某些特征会影响模型精度、模型性能的积极方面,但某些特征会影响消极方面。
每个特征都通过相关性或其他特征彼此相关。

sklearn 的随机森林提供了很多参数,例如

max_depth
max_features
max_leaf_nodes

所以你可以在sklearn中使用

GridSearch
,该类调整Randomforest中的超参数。 如果您在模型中搜索最佳超参数,您的模型之前会有更好的性能。

© www.soinside.com 2019 - 2024. All rights reserved.