主动向镶木地板文件添加分区?

问题描述 投票:0回答:1

我有一个 Spark 作业,它使用 Apache Hudi 将 parquet 写入我们的 AwS S3 数据湖。我有一个相当大的数据集(大约 20M 行并且还在不断增长),我想向其中添加一个新分区。这可以用我现有的数据集来做吗?或者我是否需要重新启动 Spark 作业以使用新的分区配置重新创建所有镶木地板文件?

我使用的是spark 3.3.2和hudi 0.13.1

apache-spark pyspark parquet apache-hudi
1个回答
0
投票

至于当前的hudi版本<= 0.14, yes you have to rewrite the whole table with the new partition scheme.

主要障碍是 parquet 文件在 hudi 内部列中包含分区路径。因此,您可以手动修改一些文件(例如 hoodie.properties、从头开始重新创建元数据表等),但最终您还需要重写镶木地板以覆盖该列。

否则你最终将不支持删除,甚至可能出现其他并发症

© www.soinside.com 2019 - 2024. All rights reserved.