Spark RDD是否对每个分区中的元素集具有确定性？

问题描述投票：0回答：1

我找不到太多有关确保分区顺序的文档-我只是想确保在给定的确定性转换集合下，如果基础数据集不变，则分区总是接收相同的元素集。那可能吗？

不需要排序：一个例子是在将一组转换应用于RDD之后，现在看起来像这样->（A，B，C，D，E，F，G）

并且如果我的spark.default.parallelism为2或3，则元素集始终为：（A，B，C，D），（E，F，G）或（A，B），（C，D），（E，F，G）。

这是因为我必须使执行程序根据其所操作的元素的分区/集合而引起一些副作用，并且我想确保Spark应用程序是幂等的。（如果重新启动，则具有相同的副作用）

apache-spark

persistence

rdd

1个回答

0
投票

Spark具有一些内部机制，可以根据您拥有的数据来计算最佳执行计划。因此，您无法预测分区的顺序和内容。