将 AWS Glue 或 S3 中的数据高效索引到 RDS

问题描述投票：0回答：1

我在 AWS Glue 中使用 PySpark 进行了一些大型 ETL 作业，将

.parquet

 数据集输出到 S3 存储桶中。

我想将此数据（无论是直接来自 Glue 还是通过使用 S3 中的原始 parquet 文件通过其他方式）索引到 RDS 中。通常，作为一次性导入，这并不太困难，但这需要支持实时索引：

我一直在考虑在 Glue ETL 作业中结合使用变更数据捕获和 JDBC 连接，但想知道是否有更高效或更快速的方法来做到这一点。

amazon-web-services

amazon-s3

jdbc

amazon-rds

aws-glue

1个回答

0
投票

一种方法可能是围绕代表数据年龄（例如处理日期）的键对镶木地板文件进行分区，并始终附加记录，从不更新或删除过去的记录。

执行此操作，您可以链接更新数据集的作业和仅对 RDS 或 ELK 中的最后更新进行索引的作业。

这样做，您将不会处理 350MM+ 的行，只会处理最后一个增量。

更新或删除将转化为在镶木地板文件中创建新记录。要选择特定记录，您必须选择最新的记录。