我有一个用于回归的 CNN,它获取图像并输出浮点数 0-10。我的模型表现不错,但数据不平衡存在严重问题,使我的模型对几乎所有图像的预测结果在 6-8 之间,但获得了不错的均方误差。我知道有人根据数据集的不平衡程度来衡量他们的类别。那么,有没有办法用回归模型来做到这一点呢?如果有帮助的话,我的输出是一个浮点数,但我的所有数据都在 0-10 范围内以 0.5 为间隔,因此在某种程度上有 20 个不同的类。这是我的数据标签的分布。
我知道还有其他方法,例如:
有什么建议吗?谢谢。
您的数据最初可能代表回归问题,但将其分为 20 组后,您正在针对 20 类分类问题 训练模型。因此,你应该这样对待它,并寻找方法来克服这种不平衡。最流行的方式是:
我通常更喜欢第一个,因为模型往往会在更多数据的情况下做得更好,但第三个更容易实现,并且不会在训练中增加额外的计算成本。
一种流行的过采样技术是SMOTE。
对于优化不同的指标,一种选择是优化加权损失,其中权重与类表示的倒数成正比。