使用Spark将一系列json格式的binlog记录合并到Hudi表中的最佳方法是什么？

问题描述投票：0回答：1

我有一个Hudi表，和一些json格式的binlog记录。现在我想将这些binlog记录合并到Hudi表中。我们知道，binlog记录需要按顺序执行。最好的方法是什么？是否应该按顺序遍历每条binlog记录，并在Hudi表中进行相应的操作？或者还有其他优雅的操作来实现这一点吗？

apache-spark parquet apache-hudi mysqlbinlog

1个回答

0
投票

您可以将自定义 Spark 作业与有序处理结合使用：

创建 Spark 作业以将 binlog 记录读取为 DataFrame
按 binlog 序列号或时间戳对 DataFrame 进行排序。
遍历排序后的DataFrame，对每条记录执行Hudi操作（插入、更新、删除）。

您还可以使用自定义转换器检查Hudi DeltaStreamer

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.