比较2个整数数组与apache spark和rdd [closed]

问题描述 投票:-3回答:1
我在下面有2 rdd:

val x = sc.parallelize(Array(100,1,877,3)) val y = sc.parallelize(Array(100,1,877,8))

我如何有效比较?没有记录2个数据时如何停止程序?以及如何使用rdd范例

谢谢

scala apache-spark intellij-idea rdd distributed
1个回答
0
投票
通常,这不是Spark要做的任务,但请确保您可以做到。

如果数据不大,请收集并进行本地比较。

如果您的数据量很大,它将变得越来越有趣。您可以使用相同的分区对两个rdds进行分区,然后将两个rdds压缩在一起。然后可以对每个分区对进行本地比较。

您不必使用Spark,其想法应该是相同的:将数据分成较小的块,然后比较每个块对。

© www.soinside.com 2019 - 2024. All rights reserved.