改进长尾数据的回归模型

问题描述 投票:0回答:1

我正在对信贷持有的预测收入数据进行建模。正如预期的那样,该数据是长尾数据,收入较高的数据要小得多。在下图中,它是这些收入在申报收入和预测收入之间的分布。 declared vs predicted incomes

如您所见,该模型将低收入向上移动,但没有捕捉到长尾。我已经完成了一些特征工程步骤,例如对数转换任何货币值,查找不同风险因素(例如信用评分)的收入中位数,查找区域收入中位数等。

模型参数如下:tuned catboost模型 {'迭代':300,'学习率':0.1,'深度':8,'损失函数':'RMSE'}

我选择了 catboost,因为它是使用 Pycaret 时 RMSE 方面最好的模型。

任何具有长尾数据建模经验并愿意提供指导的人将不胜感激

python machine-learning model regression catboostregressor
1个回答
0
投票

对于这种分布,您可以尝试使用其他方法(最小/最大?)标准化您的数据。 另一个解决方案是使用集成方法 - 即 XGB ?用于极端梯度提升。与 Cat Boost 相比,它将结合多个预测器的预测。因此,它可能会更准确地掌握您所拥有的非线性分布

© www.soinside.com 2019 - 2024. All rights reserved.