我有一个相对直接的 ETL 任务:
我正在考虑使用 PETL,因为它看起来相当轻量级并且具有一些不错的实用功能。我还看到将读取的 csv 转换为表格,这对于查看/加入/查询似乎非常有帮助。
还有哪些我可能没有考虑到的其他考虑因素? 我还看到了 Airflow,它似乎是一个成熟的系统。这里的问题是我可能对基础设施的使用/成本有一些限制。对于 petl,我计划在预定的 lambda 中使用它。
至于时间安排,我计划在晚上运行这些 ETL,以避免任何表锁。
在 lambda 上运行 PETL 时我的任务可行吗?
我目前正处于研究阶段,正在考虑不同的工具。
对我来说,Airflow 是一个不错的选择,因为它提供了创建独立任务的好处,并且还可以帮助您扩展。
请参阅此处:https://airflow.apache.org/docs/apache-airflow-providers-amazon/stable/operators/s3/s3.html