分列

问题描述 投票:0回答:1

你好,我正试图在火花RDD中分割一列。

数据集样本。

twitter数据

在这里,我想把月份一栏拆成一个月份和一个年份:例。

2019 10

2009 11

并进一步统计一年内所有的微博,(我知道如何使用reduceByKey(+)这里)

Spark RDD中如何拆分列?我不想使用数据框架。

scala apache-spark-sql rdd
1个回答
0
投票

你可以尝试如下

val rdd = oldRdd.map({case(tokenType,month,count,hashTagName) => (tokenType,month.substring(0,4),month.substring(2,6),count,hashTagName)})
© www.soinside.com 2019 - 2024. All rights reserved.