随机森林分类器指标rdd

问题描述 投票:0回答:1

寻找随机森林分类器指标,如ROC,精确召回曲线,精度,召回,基于Dataframe使用pyspark的F1分数。我可以在RDD对象上获得相同的指标。有人可以帮忙。

apache-spark-mllib
1个回答
0
投票

如果我理解正确你想要计算ML指标但是在Spark数据帧上?您可以将最终的数据帧转换为rdd,并使用rdd的现有度量函数。例如:

 from pyspark.mllib.evaluation import BinaryClassificationMetrics

 predictions = model.transform(some_data_in_dataframe)
 labels_and_predictions = predictions.select("prediction","true_label").rdd

 metrics = BinaryClassificationMetrics(labels_and_predictions)
 print((metrics.areaUnderPR * 100))
 print((metrics.areaUnderROC * 100))
© www.soinside.com 2019 - 2024. All rights reserved.