主动向镶木地板文件添加分区？

主动向镶木地板文件添加分区？

问题描述投票：0回答：1

我有一个 Spark 作业，它使用 Apache Hudi 将 parquet 写入我们的 AwS S3 数据湖。我有一个相当大的数据集（大约 20M 行并且还在不断增长），我想向其中添加一个新分区。这可以用我现有的数据集来做吗？或者我是否需要重新启动 Spark 作业以使用新的分区配置重新创建所有镶木地板文件？

我使用的是spark 3.3.2和hudi 0.13.1

apache-spark

pyspark

parquet

apache-hudi

1个回答

0
投票

至于当前的hudi版本<= 0.14, yes you have to rewrite the whole table with the new partition scheme.

主要障碍是 parquet 文件在 hudi 内部列中包含分区路径。因此，您可以手动修改一些文件（例如 hoodie.properties、从头开始重新创建元数据表等），但最终您还需要重写镶木地板以覆盖该列。

否则你最终将不支持删除，甚至可能出现其他并发症

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1