你好,我正试图在火花RDD中分割一列。
数据集样本。
在这里,我想把月份一栏拆成一个月份和一个年份:例。
2019 10
2009 11
并进一步统计一年内所有的微博,(我知道如何使用reduceByKey(+)这里)
Spark RDD中如何拆分列?我不想使用数据框架。
你可以尝试如下
val rdd = oldRdd.map({case(tokenType,month,count,hashTagName) => (tokenType,month.substring(0,4),month.substring(2,6),count,hashTagName)})