在机器学习中,如果不是哪个数据集,AUC是否比精度更好?

问题描述 投票:0回答:3

auc在处理不平衡数据方面更好。正如在大多数情况下,如果我处理的是数据的准确性,那么准确性并不正确。即使精度很高,模型的性能也很差。如果它不是auc,它是处理不平衡数据的最佳方法。

python machine-learning artificial-intelligence roc auc
3个回答
1
投票

关于不平衡类的好处不是准确性,因为如果一个类有1%的例子而另一个有99%,你可以将所有例子归类为零并且仍然可以达到99%的准确度。

考虑到混淆矩阵(下面),您还应该分析Precision和Recall。这些措施可以为您提供误报和漏报的总数。

Confusion Matrix

然后你必须定义哪个是你的焦点。考虑到预测性维护,假阳性是归类为失败的健康机器,假阴性是归类为健康失败的机器。您可以获得99%的准确度和出色的AUC,并且仍可获得0%的精度。

Precision and Recall

f1 score


1
投票

对于不平衡的数据集都没有好处。请改用精确调用曲线下的区域。


0
投票

“点指标”(精确度,召回率,F1得分)与适用于整个分类器的指标(如ROC曲线下的区域或PR曲线下的区域)之间存在差异。

使用分类器的决策计算精度,召回和F1分数等点指标。这意味着您需要选择一个硬判决阈值,例如高于0.5的任何东西都是正数,而低于0.5的任(您也可以在0和1之间选择任何其他决策阈值;选择不同的决策阈值将改变您计算的精度,召回和F1分数。)

您还可以计算ROC曲线下面积(“AUC”)和精确召回曲线下面积(AUPRC)等指标。这些指标可以被视为不同决策阈值的“平均值”。您使用预测概率的向量计算这些,而不是二进制标签的向量。 ROC曲线下的面积非常受欢迎,但当您的数据倾向于具有大量真实底片时,它们并不是非常有用。精确回忆曲线下的面积是一个很好的度量标准,当您的数据偏斜时会使用很多真正的负数。有关如何计算AUROC或AUPRC以及何时使用每个AUROC或AUPRC的更多信息,您可以查看this article on AUROCthis article on AUPRC

© www.soinside.com 2019 - 2024. All rights reserved.