我的pyspark出错,说GC收集器内存不足。我读了一篇关于G1垃圾收集器的文章,所以我想尝试一下。如何在pyspark应用程序中设置它?我找不到任何指示......
谢谢!
这里要记住的要点是垃圾收集的成本与Java对象的数量成正比。这是开始...通过spark see this和see this来优化它以发现要使用的主要conf参数。
其余的是经验......