处理线性回归模型中数值变量中大量的 0 值

Question

对此有点陌生，但这里是

我有一个车辆故障数据集，我想使用一些线性回归模型来预测故障率

目标变量是 Vehicle FAIL % 14 Independent continuous Variables are vehicle Components Fail % 超过 20 个车辆制造二进制特征，1 或 0 大约 2.5k 个观察值。 70:30 火车：测试拆分

我担心的是，对于每个连续特征，绝大多数观察值的值为 0%——一个合法的数值。

然而，当我查看每个数值变量的异常值时，其中一些变量有数百个。我相信是因为前面提到的 0's

删除 0 值实际上会破坏数据集。

我已经拆分了数据并运行了线性回归、Lasso、Ridge、随机森林等。取得了不错的结果。

但是我担心我在这里遗漏了异常值。我应该用这些 0 值做点什么——还是接受它们本来的样子。因为它们与我的模型相关

任何想法或指导将不胜感激

谢谢

我研究了可能删除 0 的使用

zir = ZeroInflatedRegressor(
    classifier=SVC(),
    regressor=LinearRegression()
    )
zir.fit(X_train, y_train)

但这返回了以下错误

ValueError: Classification metrics can't handle a mix of continuous and binary targets`

我现在知道这是错误的方法，因为我不能对线性模型使用精度度量。