ML管道和指标：精确度，召回，AUC-ROC，F1Score

Question

我正在使用ML Pipeline，类似于：

VectorAssembler assembler = new VectorAssembler()
                .setInputCols(columns)
                .setOutputCol("features");
LogisticRegression lr = new LogisticRegression().setLabelCol(targetColumn);
        lr.setMaxIter(10).setRegParam(0.01).setFeaturesCol("features");

Pipeline logisticRegression = new Pipeline();
logisticRegression.setStages(new PipelineStage[] {assembler, lr});
PipelineModel logisticRegressionModel = logisticRegression.fit(learningData);

我想要的是在这个模型上获得像Precision, Recall, AUC-ROC, F1-SCORE, ACCURACY这样的标准度量的方法。我找到了BinaryClassificationMetrics - 但不确定它是否兼容。 RegressionEvaluator似乎只返回mse|rmse|r2|mae。

那么使用ML Pipeline提取Precision，Recall等的正确方法是什么？

Answer 1

Ryan的答案上面遗漏了几件事。

我可以确认以下工作（注意：我的用例是多类分类）

val scoredTestSet = model.transform(testSet)
val predictionLabelsRDD = scoredTestSet.select("prediction", "label").rdd.map(r => (r.getDouble(0), r.getDouble(1)))
val multiModelMetrics = new MulticlassMetrics(predictionAndLabelsRDD)

Answer 2

获得数据后，获取预测和标签并将其传递给BinaryClassificationMetrics

像下面的东西（认为它在scala我希望它有帮助）

val scoredTestSet = logisticRegressionModel.transform(testSet)
val predictionLabelsRDD = scoredTestSet.select("prediction", "label").map(r => (r.getDouble(0), r.getDouble(1)))
val binMetrics = new BinaryClassificationMetrics(predictionAndLabels)
// binMetrics.areaUnderROC

来自https://spark.apache.org/docs/latest/mllib-evaluation-metrics.html#binary-classification的其他例子

在这种情况下，预测是1.0或0.0，您也可以提取概率并使用它而不是预测，以便binMetrics可以显示多个阈值的数据

ML管道和指标：精确度，召回，AUC-ROC，F1Score

问题描述投票：3回答：2

2个回答

最新问题

ML管道和指标：精确度，召回，AUC-ROC，F1Score

问题描述 投票：3回答：2

2个回答

最新问题

问题描述投票：3回答：2