Pyspark CI/CD 管道

问题描述 投票:0回答:1

目前正在学习PySpark进行ETL操作。在这里,我有一个问题如何为 PySpark 脚本制作标准管道。我正在使用 Airflow 在 Kubernetes 中部署 PySpark 脚本,我不知道如何制作标准版本控制和工件。

我对此一无所知。之前我使用 Talend 进行 ETL,因此 Talend 本身用于管道、工件等。

如何执行版本控制和工件准备,如果PySpark脚本失败,如何回滚到旧版本?

apache-spark pyspark etl cicd
1个回答
0
投票

使用 SemVer 标记您的 PySpark 映像。阅读@gvilarino 在这篇post中的回答。

稍后,如果您想回滚,只需更新将 PySpark 作业提交到 Kubernetes 的 Airflow Operator 中的镜像标签即可。

© www.soinside.com 2019 - 2024. All rights reserved.