使用 Python ETL (petl) 创建 ETL 管道

问题描述 投票:0回答:1

我有一个相对直接的 ETL 任务:

  • 读取存储在存储桶 (S3) 中的 CSV 中提供的客户数据。
  • 将数据解析/转换为可用的查询。
  • 最后,将其加载到 postgres 数据库(带有 postgres 的 aws rds)。

我正在考虑使用 PETL,因为它看起来相当轻量级并且具有一些不错的实用功能。我还看到将读取的 csv 转换为表格,这对于查看/加入/查询似乎非常有帮助。

还有哪些我可能没有考虑到的其他考虑因素? 我还看到了 Airflow,它似乎是一个成熟的系统。这里的问题是我可能对基础设施的使用/成本有一些限制。对于 petl,我计划在预定的 lambda 中使用它。

至于时间安排,我计划在晚上运行这些 ETL,以避免任何表锁。

在 lambda 上运行 PETL 时我的任务可行吗?

我目前正处于研究阶段,正在考虑不同的工具。

python airflow etl petl
1个回答
0
投票

对我来说,Airflow 是一个不错的选择,因为它提供了创建独立任务的好处,并且还可以帮助您扩展。

请参阅此处:https://airflow.apache.org/docs/apache-airflow-providers-amazon/stable/operators/s3/s3.html

© www.soinside.com 2019 - 2024. All rights reserved.