在 S3 上引用分区时,Spark SQL 没有按预期运行

问题描述 投票:0回答:0

我在 S3 上有镶木地板文件,由一个整数列分区,例如。分区号

当我运行我的 sql 查询时

SELECT * FROM parquet.`s3a://path/to/my/partitions/` WHERE partitionid = 784143

我希望 spark 只读取我指定的分区中的数据,但看起来它为每个分区运行一个任务我可能做错了什么?

当在 URL 上指定分区时,查询确实按预期运行,但这是正确的吗? spark 在看到分区文件夹时是否不知道 parquet 文件的结构?

有关 Spark 如何处理此问题的任何更多信息,我们将不胜感激,提前谢谢大家!

amazon-web-services apache-spark amazon-s3 partitioning
© www.soinside.com 2019 - 2024. All rights reserved.