xgboost 正确使用 auc 指标

问题描述 投票:0回答:2

我有一个用于二元分类问题的稍微不平衡的数据集,正负比为 0.6。

我最近从这个答案中了解了auc指标:https://stats.stackexchange.com/a/132832/128229,并决定使用它。

但是我遇到了另一个链接http://fastml.com/what-you-wanted-to-know-about-auc/,它声称,AUC-ROC 对类别不平衡不敏感,我们应该使用 AUC精确回忆曲线。

xgboost 文档不清楚他们使用哪个 AUC,他们使用 AUC-ROC 吗?

该链接还提到,仅当您不关心概率而只关心排名时才应使用 AUC。

但是,由于我使用的是二元:逻辑目标,我认为我应该关心概率,因为我必须为我的预测设置阈值。

xgboost参数调优指南https://github.com/dmlc/xgboost/blob/master/doc/how_to/param_tuning.md 还提出了一种处理类别不平衡的替代方法,即不平衡正样本和负样本并使用 max_delta_step = 1。

有人可以解释一下,对于 xgboost 来说,什么时候 AUC 比其他方法更适合处理类别不平衡。如果我使用 AUC,我需要为预测设置的阈值是多少,或者更一般地说,我应该如何使用 AUC 来处理 xgboost 中不平衡的二元分类问题?

编辑:

我还需要消除误报而不是误报,除了简单地改变阈值之外,我怎样才能实现这一目标?

xgboost auc
2个回答
0
投票

根据here中的xgboost参数部分,有

auc
aucpr
,其中
pr
代表精确召回率。

我想说,您可以通过运行这两种方法来建立一些直觉,并查看指标的行为方式。您可以包含多个指标,甚至可以根据您喜欢的指标进行优化。

您还可以通过创建自定义指标来监控每个提升轮中的误报(率)。


0
投票

XGboost 选择写 AUC(ROC 曲线下的面积),但有些人更喜欢更明确地写成 AUC-ROC / ROC-AUC。

https://xgboost.readthedocs.io/en/latest/parameter.html

© www.soinside.com 2019 - 2024. All rights reserved.