当我尝试查找分区字段的最大值时,读取所有记录的火花

问题描述 投票:0回答:1

我想我不了解火花。我有一个按'partition_date'分区的表,可能有大约10个分区,但每个分区中都有很多记录。

当我尝试查找此字段的最大值时,如果Spark知道这是分区字段,那么为什么似乎似乎正在评估表中的所有记录。直观地,它将只评估分区字段的这10个字符串并返回最大值。

我已经使用'显示分区'了一个快速的方法,但是我对此行为感兴趣,

非常感谢。

我想我不了解火花。我有一个按'partition_date'分区的表,可能有大约10个分区,但每个分区中都有很多记录。当我尝试找到最大的...

apache-spark max pyspark-sql partitioning
1个回答
0
投票

分区是数据块(不是数据),并且在数据上执行spark查询。

© www.soinside.com 2019 - 2024. All rights reserved.