处理线性回归模型中数值变量中大量的 0 值

问题描述 投票:0回答:0

对此有点陌生,但这里是

我有一个车辆故障数据集,我想使用一些线性回归模型来预测故障率

目标变量是 Vehicle FAIL % 14 Independent continuous Variables are vehicle Components Fail % 超过 20 个车辆制造二进制特征,1 或 0 大约 2.5k 个观察值。 70:30 火车:测试拆分

我担心的是,对于每个连续特征,绝大多数观察值的值为 0%——一个合法的数值。

然而,当我查看每个数值变量的异常值时,其中一些变量有数百个。我相信是因为前面提到的 0's

删除 0 值实际上会破坏数据集。

我已经拆分了数据并运行了线性回归、Lasso、Ridge、随机森林等。取得了不错的结果。

但是我担心我在这里遗漏了异常值。我应该用这些 0 值做点什么——还是接受它们本来的样子。因为它们与我的模型相关

任何想法或指导将不胜感激

谢谢

我研究了可能删除 0 的使用

zir = ZeroInflatedRegressor(
    classifier=SVC(),
    regressor=LinearRegression()
    )
zir.fit(X_train, y_train)

但这返回了以下错误

ValueError: Classification metrics can't handle a mix of continuous and binary targets`

我现在知道这是错误的方法,因为我不能对线性模型使用精度度量。

python linear-regression outliers
© www.soinside.com 2019 - 2024. All rights reserved.