如何基于ROC曲线确定最佳模型

问题描述 投票:1回答:2

我创建了四个Logistic回归模型(二进制分类),并开发了这四个模型的ROC曲线。但是,我无法理解如何科学地确定四个最佳模型,从而最终确定四个最佳模型。我要求有人帮助我确定确定最佳模型的最佳理由。enter image description here

machine-learning roc
2个回答
0
投票

让我们先了解一些基础知识,然后再公开该图所传达的相关信息。


ROC曲线使您可以通过分类器衡量两个类的可分离程度,即模型可以区分两个类的程度。您看到的曲线代表模型在不同阈值下获得的重复的TPRFPR(在您的情况下为百分比)。

理解角色阈值在这里扮演重要角色,因此这是一种直觉。为了计算ROC曲线,我们需要模型输出的概率。这是因为将针对不同的阈值计算按TPR vs FPR衡量的分类优度。如果您认为例如模型输出的0.8概率将被分类为具有1阈值的0.5,而不是具有0阈值的0.85,则这似乎很明显。这将使您在特定分类器的曲线中具有不同的point

分类器的ROC曲线将通过在不同的阈值上重复上述操作(即计算TPRFPR)获得,直到获得描述分类器的一般行为的行。

但是为什么我需要知道它在thresholds!=0.5上的分类情况如何?您可能会问...

例如,这会告诉您分类器在TPR可能会或多或少灵活的情况下的预测效果如何。在那种情况下,您可能想要比较阈值不同的模型的响应,这些响应导致较低的FPR(以较低的TPRAUC分数表示)。

在通常情况下,您想以balanced方式最小化两个类别的错误分类,最佳阈值将是靠近左上角的那个,或者换句话说,是导致与对角线的距离更大(对角线仅代表分类器不知道如何区分两个类的点)。

但是如上所述,ROC曲线如此有用的原因在于,它告诉您对模型进行分类的好处取决于要确定优先级的指标

因此,可以从ROC曲线中获得的信息如下:

  • 每个分类的最佳阈值是多少?>
  • 哪个分类器总体上表现更好
  • 因此,从本质上讲,我们可以将其视为分类器在不同情况下表现良好的picture

,根据每个问题,分类器可能会或多或少受到关注。

0
投票

本质上,ROC曲线是一种可视化不同决策阈值的混淆矩阵的方法。虽然只能通过考虑错误分类的相应结果来找到特定应用程序的最佳模型,但是具有较大AUC的ROC曲线通常是更好的选择。在您的情况下,这意味着“蓝色”模型将是最佳选择。要了解更多直观信息,请查看一些youtube视频,例如:https://www.youtube.com/watch?v=4jRBRDbJemM

© www.soinside.com 2019 - 2024. All rights reserved.