Amazon s3:获取 Athena/AWS Glue 目录中分区的上次更新日期

问题描述 投票:0回答:1

我正在尝试找到一种方法来获取每个分区的最后更新日期和时间。例如,如果 15-04-23 分区是在 3 月 15 日创建的,并且在 18 日向该分区添加了一个新文件,那么我预计最后更新日期是 3 月 18 日。有什么办法可以获取这些信息吗?

python amazon-web-services amazon-s3 aws-glue amazon-athena
1个回答
0
投票

此查询将为您提供每个分区中最新对象的文件修改时间:

select "$partition", max("$file_modified_time") as max_file_modified_time
from my_table
group by 1
order by 1

此查询扫描零字节,但根据表中的分区数量,它可能会产生大量的 S3 操作,因此它不是免费的。

查询利用

$partition
元数据列,该列将是组合分区键的字符串表示形式。您还可以直接使用分区键的名称。如果您的表有分区键
date
category
,查询可能如下所示:

select date, category, max("$file_modified_time") as max_file_modified_time
from my_table
group by 1, 2
order by 1, 2
© www.soinside.com 2019 - 2024. All rights reserved.