我为自己的研究制作了一个数据集,大约有 30,000 条数据。
每个数据有 20 个浮点数作为输入和 4 个类。
任何网络模型的训练都很糟糕(总是过度拟合),所以我画了一个 UMAP 并得到如下结果:
这里0类(深蓝色)分布在各处,代表“0类数据在处理过程中应该被忽略”。
当忽略 99% 的 0 类数据时,UMAP 变为:
如您所见,结果很好。
由于 0 类数据集非常重要,所以我无法完全删除它们。
这种情况,我该怎么做才能得到最优的深度学习结果?
请告诉我任何可能性最小的解决方案,我将深深感谢你。
正如@Shasa 在评论中提到的,我可以让我的 umap 结果更好。
我刚刚添加
reducer.fit(digits.data, y=label_list)
关于 UMAP 转换代码。