我们使用spark-ml从现有数据构建模型。新数据每天都在发布。
有没有办法我们只能读取新数据并更新现有模型而无需每次都读取所有数据并重新训练?
这取决于你正在使用的模型,但对于一些Spark确实是你want。你可以看看StreamingKMeans,StreamingLinearRegressionWithSGD,StreamingLogisticRegressionWithSGD和更广泛的StreamingLinearAlgorithm。
要完成Florent的答案,如果您不在流式上下文中,一些Spark mllib模型支持将initialModel作为增量更新的起点。例如,请参阅KMeans或GMM。
initialModel