在数据中,如果目标特征是不平衡的,说2%好到98%坏,并说2%是500条记录,如果我使用那500条不良记录加上只有500条好记录从98%并在机器中训练模型怎么办?学习。
我的问题是,该模型能够很好地概括500 + 500数据,因为它是50:50好与坏?我根据多次迭代选择好的500条记录,以获得高精度,因为只有1000条记录会在机器中运行得更快以获得输出。
嗨,
希望以上参考链接将清除您的概念。
如果处理不平衡数据的不良方法只检查一种可能性,则必须尝试不同的方法,如收集更多数据,创建数据,更改精度测量(roc曲线或不同类型的矩阵)或对输入数据进行采样。