使用随机森林回归（或其他集合模型）时如何消除回归变量/系数的影响

Question

我估计回归问题（产品定价），挑战在于消除模型中一个方面的影响。例如，如果我对笔记本电脑进行定价，我想将硬件规格（RAM，屏幕尺寸等）的影响与品牌（Apple，HP等）的影响区分开来。

我更习惯于形式的线性回归模型：

price = a*(hardware specs) + b*(brand specs)

我可以将调整后的预测价格定义为价格 - b *（品牌规格）。

然而，在我的预测测试中，RF回归表现最好，并且它不会像线性模型那样创建系数。

对于类似的方法，我有什么选择，去除回归的一个方面，实际上是预测性的？

Answer 1

如果这些功能是完全独立的（或者你真的只关心两个案例，一个具有所有功能，一个具有给定功能，如问题似乎要问），删除该功能，重新训练你的分类器，并获得一个分数两种型号之间的差异。

但是，要记住的一件事是，如果任何剩余的特征与所讨论的特征相关联，您将无法获得它的完整解释力，因为模型已经获得了一些信息。您还应该查看功能的协方差矩阵，看看是否是这种情况。