如何管理 AWS 中呈指数级增长的 Apache Iceberg 元数据？

Question

我担任开发人员已经十多年了，但我对数据工程还是个新手。我在 AWS Glue 和 S3 中设置了几个 Iceberg 表。我已经将生产数据复制到这些表了几周（每天大约 100k-300k 插入），发现我们的 S3 存储大小正在爆炸式增长。经过一番分析，99% 的存储都是元数据。在最坏的情况下，一张表只有 13GB 的实际数据和 66TB 的元数据（我很快清空了该存储桶）。其他几个存储桶有 200 MB 到 2GB 的数据，但仍然有 5TB 到 7TB 的元数据。

Iceberg 如此快地积累元数据正常吗？或者这只是每天有这么多插入的一个因素？

我尝试在 Athena 中运行“OPTIMIZE table”查询，该查询是从 Athena 文档中获取的，但它只扫描大约 2GB，每次运行需要 30 分钟，这对于手动处理 5TB 来说太慢了。经过几天的谷歌搜索和阅读文档后，我仍然觉得自己没有取得任何进展。有人如何管理这些东西？说真的，任何反馈、建议或链接都值得赞赏。

谢谢！