缓存结果的管道

缓存结果的管道

问题描述投票：0回答：1

我使用熊猫进行机器学习的特征提取。我希望实现以下目标：考虑到我有五个依次执行的数据处理步骤，并且执行一次，结果将自动保存。下次，如果我执行第四步，该库将自动从第三步开始。熊猫或sklearn.pipeline.Pipeline或其他数据处理库是否自然支持该缓存功能，而无需我们明确保存它们？

python

python-3.x

pandas

scikit-learn

feature-extraction

1个回答

0
投票

MLFlow Tracking具有Dagster似乎缺少的一些不错的功能（当前git commit，ML指标等的记录）。它们还与Databricks很好地集成，可以轻松地进行集群部署。但是，他们确实缺乏构建达格斯特擅长的复杂管道的方法。

是否有办法获得“世界上最好的”？也就是说，将Dagster与MLFlow集成在一起并使其在Databricks上运行？

或者有没有好的选择？