“尝试使用pyspark加载保存的Spark模型时出错”

Question

我正在使用Spark构建随机森林模型，我想保存它以便以后使用。我在没有HDFS的pyspark（Spark 2.0.1）上运行此文件，因此文件保存到本地文件系统。

我已经尝试过这样做：

import pyspark.sql.types as T
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import RandomForestClassifier

data = [[0, 0, 0.],
        [0, 1, 1.],
        [1, 0, 1.],
        [1, 1, 0.]]

schema = T.StructType([
    T.StructField('a', T.IntegerType(), True),
    T.StructField('b', T.IntegerType(), True),
    T.StructField('label', T.DoubleType(), True)])

df = sqlContext.createDataFrame(data, schema)

assembler = VectorAssembler(inputCols=['a', 'b'], outputCol='features')
df = assembler.transform(df)

classifier = RandomForestClassifier(numTrees=10, maxDepth=15, labelCol='label', featuresCol='features')
model = classifier.fit(df)

model.write().overwrite().save('saved_model')

然后，加载模型：

from pyspark.ml.classification import RandomForestClassificationModel

loaded_model = RandomForestClassificationModel.load('saved_model')

但我收到此错误：

Py4JJavaError: An error occurred while calling o108.load.
: java.lang.UnsupportedOperationException: empty collection

我不确定它指的是哪个集合。有任何想法如何正确加载（或保存）模型吗？

Answer 1

在带有在4个不同的Docker容器上安装了jupyter笔记本的spark群集上遇到了类似的问题。通过使用同一持久性文件夹解决了该问题，该持久性文件夹可以被所有dockers容器更新并在其上保存模型。所以建议是确保您使用的是相同的持久文件夹，并且spark和python程序可以更新它

“尝试使用pyspark加载保存的Spark模型时出错”

问题描述投票：6回答：1

1个回答

最新问题

“尝试使用pyspark加载保存的Spark模型时出错”

问题描述 投票：6回答：1

1个回答

最新问题

问题描述投票：6回答：1