使用Spark优化Hive SQL查询?

问题描述 投票:-1回答:1

我有一个复杂的SQL查询,可用于在Hadoop Hive中获取数据。

我已经开始阅读Spark和PySpark。这些工具似乎可以改善性能。但是由于我仍然需要从Hive获取数据,所以Spark无关紧要,对吧?换句话说,如果我必须向Hive查询数据,那么我从Spark获得的任何性能改进都将仅来自我从Hive检索数据后对数据进行的转换。

我是否正确理解这些技术?

sql apache-spark hadoop hive pyspark
1个回答
0
投票

最终,这取决于您的Hive执行引擎,文件格式和分区/存储桶。如果Spark和Hive查询都在YARN中运行,尽管Spark可以让您对结果集执行更多操作,但它们将占用大约相同的资源来计算数据。

您可以使Hive使用Spark而不是Mapreduce作为执行引擎,或者可以使其使用Tez。

Spark仅使用Hive Metastore来查找数据,因此在所使用的客户端上的性能有所不同(Spark,Presto,直接JDBC或Thrift)

© www.soinside.com 2019 - 2024. All rights reserved.