将 AWS Glue 或 S3 中的数据高效索引到 RDS

问题描述 投票:0回答:1
我在 AWS Glue 中使用 PySpark 进行了一些大型 ETL 作业,将

.parquet

 数据集输出到 S3 存储桶中。

我想将此数据(无论是直接来自 Glue 还是通过使用 S3 中的原始 parquet 文件通过其他方式)索引到 RDS 中。通常,作为一次性导入,这并不太困难,但这需要支持实时索引:

    快速同步更改的数据
  • 超低成本(某些数据集有 350MM+ 行,我不想调用 Lambda 函数 350k 次)
  • 理想情况下仅同步新的或更新的行
我一直在考虑在 Glue ETL 作业中结合使用变更数据捕获和 JDBC 连接,但想知道是否有更高效或更快速的方法来做到这一点。

amazon-web-services amazon-s3 jdbc amazon-rds aws-glue
1个回答
0
投票
一种方法可能是围绕代表数据年龄(例如处理日期)的键对镶木地板文件进行分区,并始终附加记录,从不更新或删除过去的记录。

执行此操作,您可以链接更新数据集的作业和仅对 RDS 或 ELK 中的最后更新进行索引的作业。

这样做,您将不会处理 350MM+ 的行,只会处理最后一个增量。

更新或删除将转化为在镶木地板文件中创建新记录。要选择特定记录,您必须选择最新的记录。

© www.soinside.com 2019 - 2024. All rights reserved.