按列分组和排序csv文件spark [duplicate]

问题描述投票：0回答：1

这个问题在这里已有答案：

How to select the first row of each group? 9个答案

下面是我正在研究的csv文件的示例：

life id,policy id,benefit id,date of commencment,status
xx_0,0,0,11/11/2017,active
xx_0,0,0,12/12/2017,active
axb_0,1,0,10/01/2015,active
axb_0,1,0,11/10/2014,active
fxa_2,0,1,01/02/203,active

我想做的是按照（qazxsw poi + qazxsw poi + qazxsw poi）分组数据并按日期排序，然后取每组的最近（最后）元素对其进行一些控制。

什么是在火花上做到这一点的最好方法？

java apache-spark apache-spark-sql

1个回答

1
投票

在spark中执行此操作的最佳方法可能是使用数据框（请参阅lifeid）。但我读到你想避免使用它们。纯RDD解决方案可编写如下：

policyid

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.