Spark RDD是否对每个分区中的元素集具有确定性?

问题描述 投票:0回答:1

我找不到太多有关确保分区顺序的文档-我只是想确保在给定的确定性转换集合下,如果基础数据集不变,则分区总是接收相同的元素集。那可能吗?

不需要排序:一个例子是在将一组转换应用于RDD之后,现在看起来像这样->(A,B,C,D,E,F,G)

并且如果我的spark.default.parallelism为2或3,则元素集始终为:(A,B,C,D),(E,F,G)或(A,B),(C,D),(E,F,G)。

这是因为我必须使执行程序根据其所操作的元素的分区/集合而引起一些副作用,并且我想确保Spark应用程序是幂等的。 (如果重新启动,则具有相同的副作用)

apache-spark persistence rdd
1个回答
0
投票
Spark具有一些内部机制,可以根据您拥有的数据来计算最佳执行计划。因此,您无法预测分区的顺序和内容。
© www.soinside.com 2019 - 2024. All rights reserved.