我有一个超过40万行的数据集。我需要从35万到37万的2万行数据。我要做的是首先
dataset.limit(370000).except(dataset.limit(350000)
但是当我需要记录的顺序时,数据将被重新排列,因此我每次都不会获得正确的记录,并且由于分区的原因,返回的记录并不总是相同的。
如何在保持每列的顺序的同时如何获得准确的记录?
我有一个超过40万行的数据集。我需要从35万到370 000的2万行数据。我要做的是第一个dataset.limit(370000).except(dataset.limit(350000),但是当我需要顺序时...
zipWithIndex
?如果使用rdd是可以帮助您的选项