[我知道我应该首先使用Spark数据集,但是我想知道是否有好的情况下我应该使用RDD而不是数据集?
RDD
在常见的Spark应用程序中,您应该使用数据集/数据框。 Spark在内部优化了这些结构,它们为您提供了高级API来处理数据。但是在某些情况下,RDD很方便:
reduceByKey
aggregateByKey