使用mapreduce加入pyspark数据帧

问题描述 投票:-1回答:1

join方法运行缓慢。连接两个数据框的有效方法是什么?我们可以使用mapreduce连接两个pyspark数据帧吗?

dataframe hadoop join pyspark mapreduce
1个回答
0
投票

是的,联接很慢,但是Spark也用于批处理,在这种情况下实时响应无关紧要。

您可以在HDFS中存储中间RDD,以免一次又一次地加入它们,因为考虑到加入只是更大管道中的一部分。

© www.soinside.com 2019 - 2024. All rights reserved.