无需 Glue Crawler 将新数据插入 Athena 表?

问题描述 投票:0回答:1

我目前有一个管道,每 20 分钟就会将一些 JSON 文件添加到 S3 存储桶中。我想对 S3 存储桶中的数据运行一些分析。

过去,我使用 Glue 爬网程序来分析架构并将新数据(使用子文件夹分区)添加到 AWS Data Catalog 中的表中。然而,在短短三天内,这花费了我每小时运行超过 6 美元(三天内大约 2000 个新的小文件)。由于这是一个业余爱好项目,我希望将成本降至最低。

在 lambda 函数中将文件上传到 S3 后,我决定手动更新 Athena 表。这样应该更划算。但我不知道 Athena 是否接受 INSERT 语句。

手动将新数据插入 Athena 的最佳方法是什么(例如使用 Python Lambda 函数)?

amazon-web-services amazon-athena
1个回答
0
投票

如果 json 文件的架构没有更改,并且您仅使用爬网程序来识别新添加/创建的分区,则可以使用 分区投影 手动定义分区的范围/值。

© www.soinside.com 2019 - 2024. All rights reserved.