在Spark SQL中由vs进行分发

我最近开始研究Spark，在加入之前，我们总是使用cluster by来优化表，但是我想知道在哪种情况下，我们更喜欢使用by by cluster by子句进行分配。

apache-spark apache-spark-sql hiveql

0
投票

在数据帧api中由和由分配的群集的等效表示如下：分发者

df.repartition（$“ key”，2）

集群依据
df.repartition（$“ key”，2）.sortWithinPartitions（）

两者都涉及洗牌操作，但群集通过具有额外的排序操作。