保存火花模型摘要

Question

我在pyspark中使用spark版本：2.1.2运行一个逻辑回归。

我知道可以保存一个回归模型，如下所示。

# Initialise the logistic regression
model = LogisticRegression(featuresCol='features', labelCol='is_clickout',regParam=0, fitIntercept=False, family="binomial")

model = pipeline.fit(data)

# save model for future use
save_path = "model_0"
model.save(save_path)

问题是，保存的模型不保存摘要。

from pyspark.ml.classification import LogisticRegressionModel
model2 = LogisticRegressionModel.load(save_path)
model2.hasSummary ##### Returns FALSE

我可以提取摘要如下，但它没有附加保存方法。 # 获取模型摘要 summary = model.stages[-1].summary

有没有快速保存总结对象的方法？对于多次回归？

目前我读取对象的所有属性，并将其保存为pandas df。

Answer 1

不幸的是，你的观察是正确的。我在使用Spark 2.4.3时也遇到了同样的问题，我发现此话确认问题。

对于 线性回归模型训练，目前不保存训练摘要. 一个保存选项摘要可能会在未来被添加。

同样的注释在Spark 3.0.0-rc1中仍然存在（它的版本库中最后一个可用的标签）。

如果我们想把摘要，我们需要自己以某种方式将其序列化。我之前就做过这样的工作，在训练完我的模型后，提取我想要的统计数据，并将它们保存在一个JSON文档中。

保存火花模型摘要

问题描述投票：8回答：1

1个回答

最新问题

保存火花模型摘要

问题描述 投票：8回答：1

1个回答

最新问题

问题描述投票：8回答：1