我找不到太多有关确保分区顺序的文档-我只是想确保在给定的确定性转换集合下,如果基础数据集不变,则分区总是接收相同的元素集。那可能吗?
不需要排序:一个例子是在将一组转换应用于RDD之后,现在看起来像这样->(A,B,C,D,E,F,G)
并且如果我的spark.default.parallelism为2或3,则元素集始终为:(A,B,C,D),(E,F,G)或(A,B),(C,D),(E,F,G)。
这是因为我必须使执行程序根据其所操作的元素的分区/集合而引起一些副作用,并且我想确保Spark应用程序是幂等的。 (如果重新启动,则具有相同的副作用)