如何在两个不同的spark rdd中获取所有不同的记录

问题描述 投票:0回答:2

对于火花和RDD来说是非常新的,所以我希望我能很好地解释我的追求,以便有人理解和帮助:)

我有两组非常大的数据,可以说是存储在hadoop hdfs中的300万行和50列。我想做的是将它们都读入RDD,以便它使用并行性,我想返回一个第3个RDD,其中包含所有不匹配的记录(来自RDD)。

希望以下内容能显示我的工作意图...只是试图以最快最有效的方式查找所有不同的记录...

数据不一定按相同的顺序-rdd1的第1行可以是rdd2的第4行。

非常感谢!

Example of datasets & desired result

对于火花和RDD来说是非常新的东西,所以我希望我能很好地解释一下,以便有人理解和帮助:)我有两组非常大的数据,可以说300万行,50列,这...

scala apache-spark pyspark rdd
2个回答
2
投票
  1. 将两个数据框都加载为df1df2

0
投票

您宁愿将数据读入数据框而不是Rdds,然后使用union和group by来获得结果

© www.soinside.com 2019 - 2024. All rights reserved.