如何构建将多个源的连续数据同步到单个数据接收器的服务

问题描述投票：0回答：1

我正在设计一个服务来持续从多个来源提取数据（例如 mysql/postgres 表、雪花数据库、redshift 等），进行一些转换（简单的字段映射）并将数据保存到我的系统中。

要求：

我想到使用 AWS Glue 来实现此目的：

但是 Glue 似乎有一些缺点，不符合我的要求：

我愿意使用托管服务的任意组合来构建此项目。希望得到任何建议/指示。

提前致谢！

java

amazon-web-services

apache-spark

etl

aws-glue

1个回答

0
投票

为每个数据源创建一个基于Python的ETL作业（每个数据库表1个作业）

您可以创建一个通用脚本，然后为需要导入的每个实体自定义它（您可以在 s3 中导入文件并将其导入到glue脚本中）。

不知道从 jar 内部推送的日志如何进行日志记录/警报监控

您可以在活动桥上看到是否找到符合您需求的东西