是否可以使用AWS Glue配置Spark's Cost Based Optimizer(CBO)?
AFAIK,Spark CBO在元存储中存储表级统计信息。它适用于Hive,但不适用于Spark默认元存储库(嵌入式Derby)。因此,我的困惑是基于一个问题,即如果CBO已经使用Glue作为Spark SQL的元存储,那么它可以使用Glue元存储。我想答案是肯定的,但仍不确定。我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3。我在SparkSession#table的帮助下使用Spark SQL读取了数据帧...