当 AWS Glue 作业提供 Amazon Redshift 数据库时避免重复数据

问题描述 投票:0回答:2

如何防止使用 AWS Glue 作业将重复数据传输到 Amazon Redshift 表?我有一个场景,每天将 CSV 文件添加到 S3 存储桶,而我的 Glue 作业(将数据从这些 CSV 文件传输到 Redshift 表)每次运行时都会重复传输所有文件。有没有办法避免这个过程中重复数据?

我尝试修改粘合脚本,但它不起作用。

amazon-web-services amazon-s3 amazon-redshift aws-glue
2个回答
0
投票

启用作业书签

或者,您可以开发一个个性化的 Python 脚本,负责复制名为“importedFiles”的指定目录中经过处理的所有文件。这样,每次您的任务启动新的执行时,您都会获得已处理文件的精确记录。


0
投票

使用spectrum从s3查询数据,无需将其加载到redshift中,无需计划作业。或者使用新的预览自动复制功能

© www.soinside.com 2019 - 2024. All rights reserved.