哪个更适合在apache-spark,SQL查询或本机api中使用?

问题描述 投票:0回答:1

同时对数据集执行某些操作时,哪个更好用?找出最小值,最大值和平均值的操作。使用apache-spark的SQL查询或本机api更好吗?

java sql apache-spark bigdata
1个回答
0
投票

根据“ Spark-权威指南”,您应该优先使用DataFrames,Datasets和SQL(速度都相等)而不是RDD。尽管所有的DataFrame,Dataset和SQL代码都可以编译为RDD,但Spark的优化引擎将编写出更好的RDD代码,而后者可以手动完成(相比之下,工作量更大)。


0
投票

取决于,

  • 如果您是SQL专家,则应该使用Spark SQL。所有Spark函数都可以在SQL中使用。
  • 但是,如果您需要对列的数据类型进行支持类型验证以及关于数据框列函数的文档,那么最好使用Spark API
© www.soinside.com 2019 - 2024. All rights reserved.