我正在将 blob avro 文件从 azure blob 复制到 azure 数据湖。 我创建了一个数据流,有三个分区列:grid_id、_year、_month 在“Sink-Optimize”选项卡“设置分区”中,我选择“Key”并设置这些列。 所以文件结构是:grid_id/year/month
问题是生成的“part-xxxx”文件小于1mb。有什么办法可以配置吗?
我尝试将行合并到单个分区文件中,但这不是我们想要的。
我在 MS 论坛中发布了这个问题:
似乎无法配置分区密钥文件大小。我们可以通过减少分区数量来增加文件大小。