基于胶水和S3的火花成本优化器>> [

问题描述 投票:0回答:1
我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3。我在SparkSession#table方法的帮助下使用Spark SQL读取了数据帧。

是否可以使用AWS Glue配置Spark's Cost Based Optimizer(CBO)?

AFAIK,Spark CBO在元存储中存储表级统计信息。它适用于Hive,但不适用于Spark默认元存储库(嵌入式Derby)。因此,我的困惑是基于一个问题,即如果CBO已经使用Glue作为Spark SQL的元存储,那么它可以使用Glue元存储。我想答案是肯定的,但仍不确定。

我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3。我在SparkSession#table的帮助下使用Spark SQL读取了数据帧...

apache-spark hive apache-spark-sql aws-glue aws-glue-data-catalog
1个回答
0
投票
很遗憾,它不受支持。
© www.soinside.com 2019 - 2024. All rights reserved.