中间rdd和rdd.persist()之间的差异

问题描述 投票:0回答:1

[我知道,在Spark处理中有多个阶段时,中间阶段rdd会存储到作业完成为止,但是阅读有关cache()和persist()的用法后,我感觉他们也在做同样的事情(除了MEMORY_AND_DISK,MEMORY_ONLY和MEMORY_ONLY_SER选项可以使用)。有人可以说出为什么我们在拥有中间rdd时显式地使用cache()和persist()吗,您能给出两个用例吗?

[我知道,在Spark处理中有多个阶段时,中间阶段rdd会存储到作业完成为止,但我会读到他们对cache()和persist()的使用的感觉,就像他们正在做的那样...

python apache-spark rdd
1个回答
0
投票
关于cache()persist()之间的差异,from this article
© www.soinside.com 2019 - 2024. All rights reserved.