join方法运行缓慢。连接两个数据框的有效方法是什么?我们可以使用mapreduce连接两个pyspark数据帧吗?
是的,联接很慢,但是Spark也用于批处理,在这种情况下实时响应无关紧要。
您可以在HDFS中存储中间RDD,以免一次又一次地加入它们,因为考虑到加入只是更大管道中的一部分。