寻找随机森林分类器指标,如ROC,精确召回曲线,精度,召回,基于Dataframe使用pyspark的F1分数。我可以在RDD对象上获得相同的指标。有人可以帮忙。
如果我理解正确你想要计算ML指标但是在Spark数据帧上?您可以将最终的数据帧转换为rdd,并使用rdd的现有度量函数。例如:
from pyspark.mllib.evaluation import BinaryClassificationMetrics
predictions = model.transform(some_data_in_dataframe)
labels_and_predictions = predictions.select("prediction","true_label").rdd
metrics = BinaryClassificationMetrics(labels_and_predictions)
print((metrics.areaUnderPR * 100))
print((metrics.areaUnderROC * 100))