在 S3 上引用分区时，Spark SQL 没有按预期运行

问题描述投票：0回答：0

我在 S3 上有镶木地板文件，由一个整数列分区，例如。分区号

当我运行我的 sql 查询时

SELECT * FROM parquet.`s3a://path/to/my/partitions/` WHERE partitionid = 784143

我希望 spark 只读取我指定的分区中的数据，但看起来它为每个分区运行一个任务我可能做错了什么？

当在 URL 上指定分区时，查询确实按预期运行，但这是正确的吗？ spark 在看到分区文件夹时是否不知道 parquet 文件的结构？

有关 Spark 如何处理此问题的任何更多信息，我们将不胜感激，提前谢谢大家！

amazon-web-services

apache-spark

amazon-s3

partitioning