随机森林分类器指标rdd

问题描述投票：0回答：1

寻找随机森林分类器指标，如ROC，精确召回曲线，精度，召回，基于Dataframe使用pyspark的F1分数。我可以在RDD对象上获得相同的指标。有人可以帮忙。

apache-spark-mllib

1个回答

0
投票

如果我理解正确你想要计算ML指标但是在Spark数据帧上？您可以将最终的数据帧转换为rdd，并使用rdd的现有度量函数。例如：

 from pyspark.mllib.evaluation import BinaryClassificationMetrics

 predictions = model.transform(some_data_in_dataframe)
 labels_and_predictions = predictions.select("prediction","true_label").rdd

 metrics = BinaryClassificationMetrics(labels_and_predictions)
 print((metrics.areaUnderPR * 100))
 print((metrics.areaUnderROC * 100))

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.