在pyspaek中合并第二个rdd

问题描述 投票:0回答:1

我在pyspark中有两个rdd

rdd1=sc.parallelize(['a','b'])
rdd2=sc.parallelize(['c','d'])

我想生成一个具有对的rdd,它们对每个rdd的一个元素得出结论。 [(a,c),(b,c),(a,d),(b,d)]我尝试过

rdd3=rdd1.map(lambda x:x)+rdd2.map(lambda y:y)

失败

python apache-spark pyspark rdd
1个回答
1
投票

您正在寻找笛卡尔积:

rdd1.cartesian(rdd2)
© www.soinside.com 2019 - 2024. All rights reserved.