如果该表后来转换为 Parquet 表,对 Delta 表进行 Zorder 会影响性能吗?

问题描述 投票:0回答:1

我是 Delta 桌子的所有者,一些消费者希望将其复制为镶木地板桌子。由于种种原因,我公司内部有些人不会使用达美航空。我对这个增量表进行了 Zordered 以提高读取性能。如果我复制该表并将其转换为 Parquet(即删除增量日志并真空逻辑删除的文件),转换后的 Parquet 表是否仍然受益于 Delta 表的原始 Zordering?我听说过 Parquet 中的“行组过滤”,我认为它仍然会从数据集群中受益。但我对行组过滤的工作原理了解不够,无法证实这一点。

执行优化 Zorder 时请忽略文件压缩的任何副作用。我知道 Parquet Table 仍然会受益于文件压缩,但我不确定具体的顺序。

apache-spark databricks parquet delta-lake
1个回答
0
投票

不,您会失去 ZOrdering 带来的性能提升;因为,ZOrdering 将彼此相似的记录放在同一个文件中。然后,当您查询增量表时,查询首先会遍历

_delta_log
并识别适用于您的查询的文件,然后仅打开这些文件以查找您感兴趣的确切记录。
如果您丢失了
_delta_log
及其保存的元数据,您的 ZOrdering 努力将是徒劳的。

© www.soinside.com 2019 - 2024. All rights reserved.