使用Spark将一系列json格式的binlog记录合并到Hudi表中的最佳方法是什么?

问题描述 投票:0回答:1

我有一个Hudi表,和一些json格式的binlog记录。现在我想将这些binlog记录合并到Hudi表中。我们知道,binlog记录需要按顺序执行。最好的方法是什么?是否应该按顺序遍历每条binlog记录,并在Hudi表中进行相应的操作?或者还有其他优雅的操作来实现这一点吗?

apache-spark parquet apache-hudi mysqlbinlog
1个回答
0
投票

您可以将自定义 Spark 作业与有序处理结合使用:

  1. 创建 Spark 作业以将 binlog 记录读取为 DataFrame
  2. 按 binlog 序列号或时间戳对 DataFrame 进行排序。
  3. 遍历排序后的DataFrame,对每条记录执行Hudi操作(插入、更新、删除)。

您还可以使用自定义转换器检查Hudi DeltaStreamer

© www.soinside.com 2019 - 2024. All rights reserved.