如何在两个不同的spark rdd中获取所有不同的记录

问题描述投票：0回答：2

对于火花和RDD来说是非常新的，所以我希望我能很好地解释我的追求，以便有人理解和帮助：）

我有两组非常大的数据，可以说是存储在hadoop hdfs中的300万行和50列。我想做的是将它们都读入RDD，以便它使用并行性，我想返回一个第3个RDD，其中包含所有不匹配的记录（来自RDD）。

希望以下内容能显示我的工作意图...只是试图以最快最有效的方式查找所有不同的记录...

数据不一定按相同的顺序-rdd1的第1行可以是rdd2的第4行。

非常感谢！

对于火花和RDD来说是非常新的东西，所以我希望我能很好地解释一下，以便有人理解和帮助:)我有两组非常大的数据，可以说300万行，50列，这...

scala apache-spark pyspark rdd

2个回答

2
投票

将两个数据框都加载为df1，df2

0
投票

您宁愿将数据读入数据框而不是Rdds，然后使用union和group by来获得结果

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.