我有一个关于使用均匀流形近似和投影(UMAP)进行特征提取的问题。
在我的项目中,我使用了两个表格数据集,它们都包含大约 10000 个样本。一个有 20 个特征,另一个有 550 个特征。
我的目标是在每个数据集上应用 UMAP 并提取可用于二元分类任务的预测特征,其中我为每个样本设置了标签。因此,从 UMAP 中提取的特征将用作随机森林、xgboost、弹性网络等分类器的输入。这些分类器的超参数是根据验证数据上的 AUROC 分数进行调整的。
但我想分别知道每个数据集的最佳 UMAP 超参数值是多少,以便 UMAP 的输出在我的任务中更具预测性。
在对 UMAP 超参数进行网格搜索时,是否有任何方法或指标可以检查?我还考虑将 UMAP 与分类器结合起来,并根据我根据验证数据计算的 AUROC 分数将它们一起调整。但是由于组合数量的增加,它大大增加了调整时间。
如果你们中的任何人找到了类似使用 UMAP 的方法,那就太好了。
提前感谢您的帮助!
为了了解 UMAP 的输出,我对其应用了层次聚类,并检查了 UMAP 的输出是否可聚类的剪影得分。但是仍然在具有高轮廓分数的聚类中,样本没有以标签清晰分离的方式聚类。