val x = sc.parallelize(Array(100,1,877,3))
val y = sc.parallelize(Array(100,1,877,8))
我如何有效比较?没有记录2个数据时如何停止程序?以及如何使用rdd范例谢谢
如果数据不大,请收集并进行本地比较。
如果您的数据量很大,它将变得越来越有趣。您可以使用相同的分区对两个rdds进行分区,然后将两个rdds压缩在一起。然后可以对每个分区对进行本地比较。
您不必使用Spark,其想法应该是相同的:将数据分成较小的块,然后比较每个块对。