如何使用不平衡数据集训练神经网络模型?

问题描述 投票:0回答:0

我正在尝试制作一个具有 3 个隐藏层的神经网络来区分背景事件中的信号。我正在使用蒙特卡罗生成器生成的事件。

我面临的问题是信号事件的数量(应用一些正常切割后)比背景(90% 到 10%)多得多,这个倾斜的数据集使得神经网络和随机森林模型很难被训练和学习背景。

我已经尝试通过以下方式改进模型:

  1. 使用平衡的数据集子集(50% 到 50% 的比例)而不是使用整个数据集
  2. 训练模型(通过超参数调整和过拟合检查进行优化)
  3. 神经网络和随机森林的准确率在90%左右
  4. 将模型扩展到整个数据集,准确率下降到 72%,这对于分析来说仍然是可以接受的

这个方法有意义吗?使用样本子集训练模型,并通过接受精度下降一定量将其扩展到整个数据。

神经网络和随机森林模型的分析代码在这里这里.

python pandas machine-learning neural-network random-forest
© www.soinside.com 2019 - 2024. All rights reserved.