AUC for Random Forest-不同的方法,不同的答案?

问题描述 投票:0回答:1

我正在尝试找到一种方法为我提供一个用于训练和测试集的随机森林模型的AUC,而不使用MLeval。

这里是good example for ROC on training datahere's a good example for ROC on testing data。用于训练数据的AUC的第一个示例给出AUC = 0.944。

plot.roc(rfFit$pred$obs[selectedIndices],
         rfFit$pred$M[selectedIndices], print.auc=TRUE)
由于我不知道如何使第一个示例适应测试数据,因此将Sonar数据应用于第二个示例,并与第一个示例交叉验证答案

ctrl <- trainControl(method="cv", 
                     summaryFunction=twoClassSummary, 
                     classProbs=T,
                     savePredictions = T)
rfFit <- train(Class ~ ., data=Sonar, 
               method="rf", preProc=c("center", "scale"), 
               trControl=ctrl, metric="ROC")
print(rfFit)
...
  mtry  ROC        Sens       Spec     
   2    0.9459428  0.9280303  0.8044444

result.predicted.prob <- predict(rfFit, Sonar, type="prob") # Prediction

result.roc <- roc(Sonar$Class, result.predicted.prob$M)
plot(result.roc, print.thres="best", print.thres.best.method="closest.topleft", print.auc=TRUE)

 

但是整个训练数据(即声纳)的AUC是1.0,而rfFit显示0.946,这也是不同的!那么,为什么我会得到不同的结果?在训练和测试中计算AUC的正确方法是什么?

r random-forest caret roc auc
1个回答
0
投票

是不同型号的AUC。

您看到的第一个AUC是训练后通过交叉验证得到的平均AUC。您可以在以下位置看到它:

head(rfFit$resample)
        ROC      Sens      Spec Resample
1 1.0000000 0.9090909 1.0000000   Fold02
2 0.9949495 1.0000000 0.7777778   Fold01
3 0.8045455 0.8181818 0.5000000   Fold03
4 1.0000000 1.0000000 0.8000000   Fold06
5 0.9595960 0.9090909 0.6666667   Fold05
6 0.9909091 0.9090909 0.9000000   Fold04

mean(rfFit$resample$ROC)
[1] 0.9540909

在这种情况下,它是10倍交叉验证,您训练了90%的数据并在10%上进行测试,因此,每折叠一次它的模型都会略有不同,因此AUC也不同。

如果对所训练的最终模型进行预测,则得到的AUC为1,而插入符号输出中不包括此AUC。

因此,这取决于您的AUC应该反映什么。如果它是CV训练期间的平均AUC,则使用插入符号中的ROC值。如果您只需要1个值来反映最终模型的准确性,那么您的第二种方法就可以了。

© www.soinside.com 2019 - 2024. All rights reserved.