我正在设计一个服务来持续从多个来源提取数据(例如 mysql/postgres 表、雪花数据库、redshift 等),进行一些转换(简单的字段映射)并将数据保存到我的系统中。
要求:
我想到使用 AWS Glue 来实现此目的:
但是 Glue 似乎有一些缺点,不符合我的要求:
我愿意使用托管服务的任意组合来构建此项目。希望得到任何建议/指示。
提前致谢!
为每个数据源创建一个基于Python的ETL作业(每个数据库表1个作业)
您可以创建一个通用脚本,然后为需要导入的每个实体自定义它(您可以在 s3 中导入文件并将其导入到glue脚本中)。
不知道从 jar 内部推送的日志如何进行日志记录/警报监控
您可以在活动桥上看到是否找到符合您需求的东西