使用随机森林回归(或其他集合模型)时如何消除回归变量/系数的影响

问题描述 投票:0回答:1

我估计回归问题(产品定价),挑战在于消除模型中一个方面的影响。例如,如果我对笔记本电脑进行定价,我想将硬件规格(RAM,屏幕尺寸等)的影响与品牌(Apple,HP等)的影响区分开来。

我更习惯于形式的线性回归模型:

price = a*(hardware specs) + b*(brand specs)

我可以将调整后的预测价格定义为价格 - b *(品牌规格)。

然而,在我的预测测试中,RF回归表现最好,并且它不会像线性模型那样创建系数。

对于类似的方法,我有什么选择,去除回归的一个方面,实际上是预测性的?

python scikit-learn regression linear-regression random-forest
1个回答
1
投票

如果这些功能是完全独立的(或者你真的只关心两个案例,一个具有所有功能,一个具有给定功能,如问题似乎要问),删除该功能,重新训练你的分类器,并获得一个分数两种型号之间的差异。

但是,要记住的一件事是,如果任何剩余的特征与所讨论的特征相关联,您将无法获得它的完整解释力,因为模型已经获得了一些信息。您还应该查看功能的协方差矩阵,看看是否是这种情况。

© www.soinside.com 2019 - 2024. All rights reserved.