如何在Delta Lake合并输出中控制文件编号

问题描述投票：1回答：1

我正在将Delta Lake 0.4.0与Merge一起使用：

target.alias("t")
          .merge(
            src.as("s"),
            "s.id = t.id 
          )
          .whenMatched().updateAll()
          .whenNotMatched().insertAll()
          .execute()

src从包含数千个文件的文件夹中读取。合并结果也会生成许多小文件。有没有一种方法可以控制合并结果中的文件编号，例如repartition（1）或coalesce（1）的效果？

谢谢

apache-spark partition delta-lake

1个回答

0
投票

无法通过Delta输出操作来控制文件数量。而是在适当的时候使用OPTIMIZE，或者在诸如Databricks的平台上使用auto-optimization。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.