我的 AWS ETL 管道过程是
s3://my-bucket/raw_data/2022/202201/20220101/file.csv.gz
s3://my-bucket/raw_data/2022/202201/20220102/file.csv.gz
s3://my-bucket/raw_data/2022/202201/20220103/file.csv.gz
...
s3://my-bucket/raw_data/2022/202201/20220129/file.csv.gz
s3://my-bucket/raw_data/2022/202201/20220130/file.csv.gz
s3://my-bucket/raw_data/2022/202201/20220131/file.csv.gz
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220101/parquet_files-snappy.parquet
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220102/parquet_files-snappy.parquet
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220103/parquet_files-snappy.parquet
...
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220129/parquet_files-snappy.parquet
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220130/parquet_files-snappy.parquet
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220131/parquet_files-snappy.parquet
现在我们处理了一个错误的文件,它是一个旧日期,例如 2022-01-05。
我可以覆盖原始数据吗
s3://my-bucket/raw_data/2022/202201/20220105/file.csv.gz
并删除处理过的分区
s3://my-bucket/processed_data/partition_0=2022/partition_1=202201/partition_2=20220105/parquet_files-snappy.parquet
,然后重新处理或再次运行 aws 爬虫和 aws 粘合作业,以便在 AWS Athena 上我们将拥有正确处理的文件?