如何创建已经适合初始数据集的训练新样本的估计器？

问题描述投票：1回答：1

我根据在Spark源代码Estimator中找到的这个示例尝试创建自己的DeveloperApiExample.scala。

但是在此示例中，每次我在fit()中调用Estimator方法时，它将返回一个新的Model。

我想要再次进行拟合以训练更多尚未训练的样本。

我曾想在Model类中创建一个新方法。但是我不确定这是否有意义。很高兴知道我的模型不需要再次处理所有数据集来训练新样本，并且我们不想更改模型结构。

scala

apache-spark

machine-learning

apache-spark-mllib

1个回答

0
投票

您可以使用PipelineModels保存并加载并继续拟合模型：

MLlib标准化了用于机器学习算法的API，以使将多种算法组合到单个管道或工作流中变得更加容易。本节介绍了Pipelines API引入的关键概念，其中，管道概念主要受scikit-learn项目的启发。

查找示例代码here。