如何使用Spark DataFrameWriter.partitionBy获取分区列值集

问题描述 投票:0回答:1

我想使用Spark DataFrameWriter.partitionBy()写入AWS S3。当然,它为每个唯一的分区列值组合写一个单独的目录分支。

有没有办法从Spark获得DataFrame中存在的分区列值组合,即写入?无需查询“文件系统”(AWS S3对象存储)。

apache-spark partitioning
1个回答
0
投票

如果你想分区说ab,你可以只查询你的数据帧df.select($"a",$"b").distinct.show(),这会给你创建的文件夹。

© www.soinside.com 2019 - 2024. All rights reserved.