加入后火花对RDD中的值排序

问题描述 投票:1回答:4

我有两个配对的RDD,我使用相同的键将它们连接在一起,现在我想使用其中一个值对结果进行排序。新加入的RDD类型为:RDD [(((String,Int),Iterable [(((String,DateTime,Int,Int),(String,DateTime,String,String))]]]]

其中第一部分是配对的RDD键,可迭代的部分是我加入的两个RDD中的值。现在,我想通过第二个RDD的“时间”字段对它们进行排序。我尝试使用sortBy函数,但出现错误。

有什么想法吗?

谢谢

scala apache-spark rdd
4个回答
0
投票

火花对RDD具有mapValues方法。我认为它将为您提供帮助。


0
投票

您是对的,您可以使用sortBy功能:


0
投票

如果需要对RDD的Iterable进行排序:


0
投票

使用python:

© www.soinside.com 2019 - 2024. All rights reserved.