我在 S3 上有镶木地板文件,由一个整数列分区,例如。分区号
当我运行我的 sql 查询时
SELECT * FROM parquet.`s3a://path/to/my/partitions/` WHERE partitionid = 784143
我希望 spark 只读取我指定的分区中的数据,但看起来它为每个分区运行一个任务我可能做错了什么?
当在 URL 上指定分区时,查询确实按预期运行,但这是正确的吗? spark 在看到分区文件夹时是否不知道 parquet 文件的结构?
有关 Spark 如何处理此问题的任何更多信息,我们将不胜感激,提前谢谢大家!