如果数据集的UMAP聚类结果不好，是否无法分类？

Question

我为自己的研究制作了一个数据集，大约有 30,000 条数据。

每个数据有 20 个浮点数作为输入和 4 个类。

任何网络模型的训练都很糟糕（总是过度拟合），所以我画了一个 UMAP 并得到如下结果：

这里0类（深蓝色）分布在各处，代表“0类数据在处理过程中应该被忽略”。

当忽略 99% 的 0 类数据时，UMAP 变为：

如您所见，结果很好。

由于 0 类数据集非常重要，所以我无法完全删除它们。

这种情况，我该怎么做才能得到最优的深度学习结果？

请告诉我任何可能性最小的解决方案，我将深深感谢你。

Answer 1

正如@Shasa 在评论中提到的，我可以让我的 umap 结果更好。

我刚刚添加

reducer.fit(digits.data, y=label_list)

关于 UMAP 转换代码。