在 Apache beam 中启动管道之前进行一些预处理

问题描述 投票:0回答:0

我需要使用 Java SDK 创建一个 apache beam 管道,它将从 Google Cloud Storage 读取数据。这些文件由上游进程推送,并且可能包含无效文件。例如,文件头可能不是预期的格式。我想将所有这些无效文件移动到错误位置,我的管道应该只使用 TextIO 读取有效文件。

我尝试通过普通的 java 文件操作来做到这一点,当尝试使用 flex 模板在谷歌数据流上运行时,它给了我超时错误(轮询结果文件中的超时)

我有什么方法可以完成上述任务吗?

apache-beam
© www.soinside.com 2019 - 2024. All rights reserved.