缓存结果的管道

问题描述 投票:0回答:1

我使用熊猫进行机器学习的特征提取。我希望实现以下目标:考虑到我有五个依次执行的数据处理步骤,并且执行一次,结果将自动保存。下次,如果我执行第四步,该库将自动从第三步开始。熊猫或sklearn.pipeline.Pipeline或其他数据处理库是否自然支持该缓存功能,而无需我们明确保存它们?

python python-3.x pandas scikit-learn feature-extraction
1个回答
0
投票

MLFlow Tracking具有Dagster似乎缺少的一些不错的功能(当前git commit,ML指标等的记录)。它们还与Databricks很好地集成,可以轻松地进行集群部署。但是,他们确实缺乏构建达格斯特擅长的复杂管道的方法。

是否有办法获得“世界上最好的”?也就是说,将Dagster与MLFlow集成在一起并使其在Databricks上运行?

或者有没有好的选择?

© www.soinside.com 2019 - 2024. All rights reserved.