我正在使用以下 SQL 查询以镶木地板格式将数据接收到 S3:
INSERT INTO sink_table_s3
SELECT event_id, event_type, event_name,
DATE_FORMAT(TUMBLE_END(proc_time, INTERVAL '1' HOUR), 'yyyy-MM-dd') AS record_date, COUNT(*) results_count
FROM source_table
GROUP BY event_id, event_type, event_name, TUMBLE(proc_time, INTERVAL '1' HOUR);
我在
event_id
、event_type
和 date
列上对表进行分区。我观察到镶木地板文件正在为 event_id、event_type 保存,但 date
没有改变。由于我使用 proc_time 推导日期,我希望今天的数据保存到 2023-04-24 文件夹,但它们被保存到 2023-04-20 文件夹。
这里的任何帮助表示赞赏。
这是创建表的 DDL:
CREATE TABLE sink_table_s3 (
event_id STRING NOT NULL,
event_type STRING NOT NULL,
event_name STRING NOT NULL,
`date` STRING,
results_count BIGINT
) PARTITIONED BY (event_id, event_type, `date`) WITH (
'connector' = 'filesystem',
'path' = '<path>',
'format' = 'parquet'
);
注:20日重新开始作业