AWS Glue Stufio 作业重新处理 - AWS ETL 管道

问题描述 投票:0回答:0

我的 AWS ETL 管道过程是

  1. 我有一个现有的 S3 存储桶和对象,其中包含原始文件,每天从我们的 sftp 服务器上传
s3://my-bucket/raw_data/2022/202201/20220101/file.csv.gz
s3://my-bucket/raw_data/2022/202201/20220102/file.csv.gz
s3://my-bucket/raw_data/2022/202201/20220103/file.csv.gz
...
s3://my-bucket/raw_data/2022/202201/20220129/file.csv.gz
s3://my-bucket/raw_data/2022/202201/20220130/file.csv.gz
s3://my-bucket/raw_data/2022/202201/20220131/file.csv.gz 
  1. 我有一个 AWS Glue 爬虫来爬取创建数据目录的新文件,该目录在 AWS Athena 上显示为原始数据
  2. 我有一个 AWS Glue 作业,它使用 partition_0=yyyy、partition_1=yyyymm 和 partition_2=yyyymmdd 转换和创建 Athena 镶木地板表,并将镶木地板文件保存到 s3
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220101/parquet_files-snappy.parquet
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220102/parquet_files-snappy.parquet
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220103/parquet_files-snappy.parquet
...
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220129/parquet_files-snappy.parquet
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220130/parquet_files-snappy.parquet
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220131/parquet_files-snappy.parquet
  1. 计划每天运行 aws 爬虫和 aws glue 作业的工作流

现在我们处理了一个错误的文件,它是一个旧日期,例如 2022-01-05。

我可以覆盖原始数据吗

s3://my-bucket/raw_data/2022/202201/20220105/file.csv.gz

并删除处理过的分区

s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220105/parquet_files-snappy.parquet

,然后重新处理或再次运行 aws 爬虫和 aws 粘合作业,以便在 AWS Athena 上我们将拥有正确处理的文件?

amazon-web-services amazon-s3 etl aws-glue
© www.soinside.com 2019 - 2024. All rights reserved.