如何通过Spark RDD(Java)中的索引获取元素而不是scala,python

问题描述 投票:-3回答:1

我知道方法rdd.first()给了我RDD中的第一个元素。

此外,有方法rdd.take(num)给了我第一个num元素。

但是没有可能通过索引获得元素吗?

java python apache-spark pyspark rdd
1个回答
1
投票

RDD未编入索引,在大多数情况下不保证订单,也不支持高效的单项访问。

您可以

  • zipWithIndexfilter
  • zipWithIndex,交换元素和lookup

但不建议这样做,需要线性扫描,并且可能具有非确定性行为。

© www.soinside.com 2019 - 2024. All rights reserved.