AWS Glue Stufio 作业重新处理 - AWS ETL 管道

Question

我的 AWS ETL 管道过程是

我有一个现有的 S3 存储桶和对象，其中包含原始文件，每天从我们的 sftp 服务器上传

s3://my-bucket/raw_data/2022/202201/20220101/file.csv.gz
s3://my-bucket/raw_data/2022/202201/20220102/file.csv.gz
s3://my-bucket/raw_data/2022/202201/20220103/file.csv.gz
...
s3://my-bucket/raw_data/2022/202201/20220129/file.csv.gz
s3://my-bucket/raw_data/2022/202201/20220130/file.csv.gz
s3://my-bucket/raw_data/2022/202201/20220131/file.csv.gz

我有一个 AWS Glue 爬虫来爬取创建数据目录的新文件，该目录在 AWS Athena 上显示为原始数据
我有一个 AWS Glue 作业，它使用 partition_0=yyyy、partition_1=yyyymm 和 partition_2=yyyymmdd 转换和创建 Athena 镶木地板表，并将镶木地板文件保存到 s3

s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220101/parquet_files-snappy.parquet
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220102/parquet_files-snappy.parquet
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220103/parquet_files-snappy.parquet
...
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220129/parquet_files-snappy.parquet
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220130/parquet_files-snappy.parquet
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220131/parquet_files-snappy.parquet

计划每天运行 aws 爬虫和 aws glue 作业的工作流

现在我们处理了一个错误的文件，它是一个旧日期，例如 2022-01-05。

我可以覆盖原始数据吗

s3://my-bucket/raw_data/2022/202201/20220105/file.csv.gz

并删除处理过的分区

s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220105/parquet_files-snappy.parquet

，然后重新处理或再次运行 aws 爬虫和 aws 粘合作业，以便在 AWS Athena 上我们将拥有正确处理的文件？

AWS Glue Stufio 作业重新处理 - AWS ETL 管道

问题描述投票：0回答：0

最新问题

AWS Glue Stufio 作业重新处理 - AWS ETL 管道

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0