在Spark SQL中由vs进行分发

问题描述 投票:0回答:1

我最近开始研究Spark,在加入之前,我们总是使用cluster by来优化表,但是我想知道在哪种情况下,我们更喜欢使用by by cluster by子句进行分配。

apache-spark apache-spark-sql hiveql
1个回答
0
投票
在数据帧api中由和由分配的群集的等效表示如下:分发者

df.repartition($“ key”,2)

集群依据

df.repartition($“ key”,2).sortWithinPartitions()

两者都涉及洗牌操作,但群集通过具有额外的排序操作。
© www.soinside.com 2019 - 2024. All rights reserved.