auc在处理不平衡数据方面更好。正如在大多数情况下,如果我处理的是数据的准确性,那么准确性并不正确。即使精度很高,模型的性能也很差。如果它不是auc,它是处理不平衡数据的最佳方法。
对于不平衡的数据集都没有好处。请改用精确调用曲线下的区域。
“点指标”(精确度,召回率,F1得分)与适用于整个分类器的指标(如ROC曲线下的区域或PR曲线下的区域)之间存在差异。
使用分类器的决策计算精度,召回和F1分数等点指标。这意味着您需要选择一个硬判决阈值,例如高于0.5的任何东西都是正数,而低于0.5的任(您也可以在0和1之间选择任何其他决策阈值;选择不同的决策阈值将改变您计算的精度,召回和F1分数。)
您还可以计算ROC曲线下面积(“AUC”)和精确召回曲线下面积(AUPRC)等指标。这些指标可以被视为不同决策阈值的“平均值”。您使用预测概率的向量计算这些,而不是二进制标签的向量。 ROC曲线下的面积非常受欢迎,但当您的数据倾向于具有大量真实底片时,它们并不是非常有用。精确回忆曲线下的面积是一个很好的度量标准,当您的数据偏斜时会使用很多真正的负数。有关如何计算AUROC或AUPRC以及何时使用每个AUROC或AUPRC的更多信息,您可以查看this article on AUROC和this article on AUPRC。