改进长尾数据的回归模型

改进长尾数据的回归模型

问题描述投票：0回答：1

我正在对信贷持有的预测收入数据进行建模。正如预期的那样，该数据是长尾数据，收入较高的数据要小得多。在下图中，它是这些收入在申报收入和预测收入之间的分布。

如您所见，该模型将低收入向上移动，但没有捕捉到长尾。我已经完成了一些特征工程步骤，例如对数转换任何货币值，查找不同风险因素（例如信用评分）的收入中位数，查找区域收入中位数等。

模型参数如下：tuned catboost模型 {'迭代'：300，'学习率'：0.1，'深度'：8，'损失函数'：'RMSE'}

我选择了 catboost，因为它是使用 Pycaret 时 RMSE 方面最好的模型。

任何具有长尾数据建模经验并愿意提供指导的人将不胜感激

python

machine-learning

model

regression

catboostregressor

1个回答

0
投票

对于这种分布，您可以尝试使用其他方法（最小/最大？）标准化您的数据。另一个解决方案是使用集成方法 - 即 XGB ？用于极端梯度提升。与 Cat Boost 相比，它将结合多个预测器的预测。因此，它可能会更准确地掌握您所拥有的非线性分布