随机森林分类器使用Top-N特征方法去除特征

Question

我是数据科学和机器学习技术和流程的新手。我正在开展一个个人项目，该项目使用随机森林分类器预测 NBA 比赛的获胜者。我试图删除和修改我的功能列表，以便提高准确性并减少噪音。

我实现了在这里找到的解决方案：https://datascience.stackexchange.com/questions/57697/decision-trees-should-we-discard-low-importance-features，我将在其中循环遍历最重要的前 N 个特征并绘制出结果的准确性。在我的所有功能都经过该循环之后，我留下了一个如下所示的图：

如您所见，生成的图表有点到处都是。我是否要删除具有负斜率的要素？或者说删除特征的门槛是多少？有没有更好的方法来计算噪声？鉴于我有如此多的特征，对训练数据上的模型准确性产生如此多的影响，我如何获得最准确的模型？

Answer 1

在 ML/DL 中，某些特征会影响模型精度、模型性能的积极方面，但某些特征会影响消极方面。
每个特征都通过相关性或其他特征彼此相关。

sklearn 的随机森林提供了很多参数，例如

max_depth

、

max_features

或

max_leaf_nodes

等

所以你可以在sklearn中使用

GridSearch

，该类调整Randomforest中的超参数。如果您在模型中搜索最佳超参数，您的模型之前会有更好的性能。