我有两个配对的RDD,我使用相同的键将它们连接在一起,现在我想使用其中一个值对结果进行排序。新加入的RDD类型为:RDD [(((String,Int),Iterable [(((String,DateTime,Int,Int),(String,DateTime,String,String))]]]]
其中第一部分是配对的RDD键,可迭代的部分是我加入的两个RDD中的值。现在,我想通过第二个RDD的“时间”字段对它们进行排序。我尝试使用sortBy函数,但出现错误。
有什么想法吗?
谢谢
火花对RDD具有mapValues方法。我认为它将为您提供帮助。
您是对的,您可以使用sortBy
功能:
如果需要对RDD的Iterable进行排序:
使用python: