我写了一个简单的Python脚本,使用 sklearn.neural_network.MLPClassifier
和 sklearn.model_selection.GridSearchCV
来对二元分类数据进行预测,每个点被贴上0或1的标签。在训练数据中,大概90%的数据有标签1,10%的数据有标签0。在测试数据中,大概35%的数据有标签1,65%的数据有标签0。这个比例是已知的,虽然标签不知道。
我的模型目前是过度拟合的。我对训练数据的交叉验证得分是85-90%,但当我在测试集上运行代码时,得分低于40%。
我想到的一个变通方法是,我可以尝试将以下设置为 GridSearchCV
来分割数据,使每个训练验证集的标签比例与测试数据大致相同。然而,这个库似乎并不是一个选项,而且我的google-fu也没有返回任何关于其他sci-kit学习程序的结果。
有没有其他的库我可以使用,或者我可以输入一个我没有设法找到的参数?谢谢你。