我最近开始研究Spark,在加入之前,我们总是使用cluster by来优化表,但是我想知道在哪种情况下,我们更喜欢使用by by cluster by子句进行分配。
df.repartition($“ key”,2)
集群依据df.repartition($“ key”,2).sortWithinPartitions()
df.repartition($“ key”,2).sortWithinPartitions()
两者都涉及洗牌操作,但群集通过具有额外的排序操作。