何时应该在Spark中使用RDD代替Dataset? [重复]

问题描述 投票:0回答:1

[我知道我应该首先使用Spark数据集,但是我想知道是否有好的情况下我应该使用RDD而不是数据集?

apache-spark dataset rdd
1个回答
1
投票

在常见的Spark应用程序中,您应该使用数据集/数据框。 Spark在内部优化了这些结构,它们为您提供了高级API来处理数据。但是在某些情况下,RDD很方便:

  • 使用GraphX操作图时
  • 与仅知道如何处理RDD的第三方库集成时>
  • [当您想使用低级API更好地控制您的工作流程时(例如reduceByKeyaggregateByKey
© www.soinside.com 2019 - 2024. All rights reserved.