在pyspark中创建rdd的rdd

问题描述 投票:0回答:2

是否可以在pyspark中创建rdd的rdd?我尝试过

rdd1=sc.parallelize([1,2,3])
rdd2=sc.parallelize([4,5,6])
rdd3=sc.parallelize([rdd1,rdd2])

出现错误

python apache-spark pyspark rdd
2个回答
0
投票
UNION方法可用于执行此操作

rdd1 = sc.parallelize([1, 2, 3]) rdd2 = sc.parallelize([4, 5, 6]) rdd3 = sc.parallelize([7, 8, 9]) rdd = sc.union([rdd1, rdd2, rdd3]) rdd.collect() ## [1, 2, 3, 4, 5, 6, 7, 8, 9]

作为旁注,现在建议使用DataFrameDataset API。

0
投票
您可以加入2个RDD's>

rdd1.join(rdd2)

© www.soinside.com 2019 - 2024. All rights reserved.