spark中缓存的最大限制是多少。它可以同时保存多少数据?
它实际上完全取决于执行者的记忆。 Spark将在内存中占用大部分RDD,其余部分将在每次需要时即时获取并重新计算。它是完全可配置的,你可以检查它here
见this。默认情况下是0.6 x (JVM heap space - 300MB)
。
我可能错了,但我的理解是计算
什么是执行者记忆。假设它是1 GB。
然后堆大小是0.6的600 MB
然后50%的堆大小是缓存。我,300 MB。
http://spark.apache.org/docs/latest/tuning.html#memory-management-overview在此,他们必须假设执行程序内存为500 MB。实际上,对于本地执行程序内存,默认大小为500 MB。如果执行程序内存为500 MB,则仅为缓存分配150 MB