如何系统地调整 UMAP 超参数以进行监督学习

问题描述 投票:0回答:0

我有一个关于使用均匀流形近似和投影(UMAP)进行特征提取的问题。

在我的项目中,我使用了两个表格数据集,它们都包含大约 10000 个样本。一个有 20 个特征,另一个有 550 个特征。

我的目标是在每个数据集上应用 UMAP 并提取可用于二元分类任务的预测特征,其中我为每个样本设置了标签。因此,从 UMAP 中提取的特征将用作随机森林、xgboost、弹性网络等分类器的输入。这些分类器的超参数是根据验证数据上的 AUROC 分数进行调整的。

但我想分别知道每个数据集的最佳 UMAP 超参数值是多少,以便 UMAP 的输出在我的任务中更具预测性。

在对 UMAP 超参数进行网格搜索时,是否有任何方法或指标可以检查?我还考虑将 UMAP 与分类器结合起来,并根据我根据验证数据计算的 AUROC 分数将它们一起调整。但是由于组合数量的增加,它大大增加了调整时间。

如果你们中的任何人找到了类似使用 UMAP 的方法,那就太好了。

提前感谢您的帮助!

为了了解 UMAP 的输出,我对其应用了层次聚类,并检查了 UMAP 的输出是否可聚类的剪影得分。但是仍然在具有高轮廓分数的聚类中,样本没有以标签清晰分离的方式聚类。

classification feature-extraction supervised-learning dimensionality-reduction runumap
© www.soinside.com 2019 - 2024. All rights reserved.