按列分组和排序csv文件spark [duplicate]

问题描述 投票:0回答:1

这个问题在这里已有答案:

下面是我正在研究的csv文件的示例:

life id,policy id,benefit id,date of commencment,status
xx_0,0,0,11/11/2017,active
xx_0,0,0,12/12/2017,active
axb_0,1,0,10/01/2015,active
axb_0,1,0,11/10/2014,active
fxa_2,0,1,01/02/203,active

我想做的是按照(qazxsw poi + qazxsw poi + qazxsw poi)分组数据并按日期排序,然后取每组的最近(最后)元素对其进行一些控制。

什么是在火花上做到这一点的最好方法?

java apache-spark apache-spark-sql
1个回答
1
投票

在spark中执行此操作的最佳方法可能是使用数据框(请参阅lifeid)。但我读到你想避免使用它们。纯RDD解决方案可编写如下:

policyid
© www.soinside.com 2019 - 2024. All rights reserved.