Flink Hudi 不合并小 Parquet 文件

问题描述 投票:0回答:1

根据 CoW 表的 Hoodie 文档,应注意自动镶木地板文件大小调整。然而,它就是行不通。有人可以帮忙吗?

CREATE TABLE hudi_table(
    ts BIGINT,
    uuid VARCHAR(40) PRIMARY KEY NOT ENFORCED,
    rider VARCHAR(20),
    driver VARCHAR(20),
    fare DOUBLE,
    city VARCHAR(20)
)
WITH (
  'connector' = 'hudi',
  'path' = 'file:///opt/flink/hudi',
  'table.type' = 'COPY_ON_WRITE',
  'write.operation'='insert',
  'hoodie.parquet.small.file.limit'='500000',
  'hoodie.parquet.max.file.size'= '1000000'
);

当我一一插入多条记录时 - 为每次提交生成一个单独的 parquet 文件(420 kb 大小),并且它们永远不会合并..(请注意,small.file.limit 设置为 500 kb 和 max.file。大小设置为 1MB)。

INSERT INTO hudi_table
VALUES
(1695159649087,'334e26e9-8355-45cc-97c6-c31daf0df330','rider-A','driver-K',19.10,'san_francisco');
...
apache-flink apache-hudi
1个回答
0
投票

您似乎正在为

spark-specific
管道使用
Flink
配置。
Flink
最大文件大小的配置为
write.parquet.max.file.size

此外,如果您希望在处理小文件时提高查询性能,您可以使用集群

Clustering
Hudi
可以帮助您将大量小文件拼接成更大的文件。

© www.soinside.com 2019 - 2024. All rights reserved.