使用限制时如何保持火花数据集的顺序,但>>

问题描述 投票:0回答:1

我有一个超过40万行的数据集。我需要从35万到37万的2万行数据。我要做的是首先

dataset.limit(370000).except(dataset.limit(350000)

但是当我需要记录的顺序时,数据将被重新排列,因此我每次都不会获得正确的记录,并且由于分区的原因,返回的记录并不总是相同的。

如何在保持每列的顺序的同时如何获得准确的记录?

我有一个超过40万行的数据集。我需要从35万到370 000的2万行数据。我要做的是第一个dataset.limit(370000).except(dataset.limit(350000),但是当我需要顺序时...

apache-spark apache-spark-dataset hadoop-partitioning
1个回答
0
投票
您是否考虑过zipWithIndex?如果使用rdd是可以帮助您的选项
© www.soinside.com 2019 - 2024. All rights reserved.