我根据在Spark源代码Estimator
中找到的这个示例尝试创建自己的DeveloperApiExample.scala。
但是在此示例中,每次我在fit()
中调用Estimator
方法时,它将返回一个新的Model
。
我想要再次进行拟合以训练更多尚未训练的样本。
我曾想在Model
类中创建一个新方法。但是我不确定这是否有意义。很高兴知道我的模型不需要再次处理所有数据集来训练新样本,并且我们不想更改模型结构。
您可以使用PipelineModels保存并加载并继续拟合模型:
MLlib标准化了用于机器学习算法的API,以使将多种算法组合到单个管道或工作流中变得更加容易。本节介绍了Pipelines API引入的关键概念,其中,管道概念主要受scikit-learn项目的启发。
查找示例代码here。