使用限制时如何保持火花数据集的顺序，但>>

问题描述投票：0回答：1

我有一个超过40万行的数据集。我需要从35万到37万的2万行数据。我要做的是首先

dataset.limit(370000).except(dataset.limit(350000)

但是当我需要记录的顺序时，数据将被重新排列，因此我每次都不会获得正确的记录，并且由于分区的原因，返回的记录并不总是相同的。

如何在保持每列的顺序的同时如何获得准确的记录？

我有一个超过40万行的数据集。我需要从35万到370 000的2万行数据。我要做的是第一个dataset.limit（370000）.except（dataset.limit（350000），但是当我需要顺序时...

apache-spark apache-spark-dataset hadoop-partitioning

1个回答

0
投票

您是否考虑过zipWithIndex？如果使用rdd是可以帮助您的选项

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.