同时对数据集执行某些操作时,哪个更好用?找出最小值,最大值和平均值的操作。使用apache-spark的SQL查询或本机api更好吗?
根据“ Spark-权威指南”,您应该优先使用DataFrames,Datasets和SQL(速度都相等)而不是RDD。尽管所有的DataFrame,Dataset和SQL代码都可以编译为RDD,但Spark的优化引擎将编写出更好的RDD代码,而后者可以手动完成(相比之下,工作量更大)。
取决于,