在spark数据集中检索列的特定行号数据

问题描述 投票:0回答:1

我有如下数据集

+---------+
| column1 |
+---------+
| ABC     |
+---------+
| DEF     |
+---------+
| GHI     |
+---------+
| JKL     |
+---------+
| MNO     |
+---------+

现在必须获得第四行列值为JKL。无论如何有直接获得。我通常按​​以下方式进行]

String dataTemp = df.select("column1").collectAsList().get(3).toString();

但是我不想每次都收集为列表,这可能会在处理大型数据集时引起问题。

apache-spark apache-spark-dataset
1个回答
0
投票

约翰,

您需要使用monotonically_increasing_id内置函数并对其进行过滤。

© www.soinside.com 2019 - 2024. All rights reserved.