对此有点陌生,但这里是
我有一个车辆故障数据集,我想使用一些线性回归模型来预测故障率
目标变量是 Vehicle FAIL % 14 Independent continuous Variables are vehicle Components Fail % 超过 20 个车辆制造二进制特征,1 或 0 大约 2.5k 个观察值。 70:30 火车:测试拆分
我担心的是,对于每个连续特征,绝大多数观察值的值为 0%——一个合法的数值。
然而,当我查看每个数值变量的异常值时,其中一些变量有数百个。我相信是因为前面提到的 0's
删除 0 值实际上会破坏数据集。
我已经拆分了数据并运行了线性回归、Lasso、Ridge、随机森林等。取得了不错的结果。
但是我担心我在这里遗漏了异常值。我应该用这些 0 值做点什么——还是接受它们本来的样子。因为它们与我的模型相关
任何想法或指导将不胜感激
谢谢
我研究了可能删除 0 的使用
zir = ZeroInflatedRegressor(
classifier=SVC(),
regressor=LinearRegression()
)
zir.fit(X_train, y_train)
但这返回了以下错误
ValueError: Classification metrics can't handle a mix of continuous and binary targets`
我现在知道这是错误的方法,因为我不能对线性模型使用精度度量。