如何防止使用 AWS Glue 作业将重复数据传输到 Amazon Redshift 表?我有一个场景,每天将 CSV 文件添加到 S3 存储桶,而我的 Glue 作业(将数据从这些 CSV 文件传输到 Redshift 表)每次运行时都会重复传输所有文件。有没有办法避免这个过程中重复数据?
我尝试修改粘合脚本,但它不起作用。
启用作业书签。
或者,您可以开发一个个性化的 Python 脚本,负责复制名为“importedFiles”的指定目录中经过处理的所有文件。这样,每次您的任务启动新的执行时,您都会获得已处理文件的精确记录。
使用spectrum从s3查询数据,无需将其加载到redshift中,无需计划作业。或者使用新的预览自动复制功能