用于实施数据流和数据流进行分析的数据流作业中出现死信队列失败

问题描述 投票:0回答:1

我目前正在使用 GCP Dataflow 从云存储中获取数据并将其加载到 BigQuery 中,按照本教程中概述的步骤操作:https://cloud.google.com/datastream/docs/implementing-datastream-dataflow-分析

该作业已经顺利运行了几个月,但是一个月前,我遇到了以下错误消息,并注意到存储桶中的死信队列(DLQ)文件夹是空的。我当时重新启动了工作,似乎暂时解决了问题。然而,今天,我再次遇到同样的错误

Error message from worker: java.lang.RuntimeException: org.apache.beam.sdk.util.UserCodeException: java.io.FileNotFoundException: No files matched spec: gs://BUCKET_NAME/dead_letter_queue/retry/2023/07/DD/11/13/error-pane-0-last-00001-of-00020.json         org.apache.beam.runners.dataflow.worker.GroupAlsoByWindowsParDoFn$1.output(GroupAlsoByWindowsParDoFn.java:187)         org.apache.beam.runners.dataflow.worker.GroupAlsoByWindowFnRunner$1.outputWindowedValue(GroupAlsoByWindowFnRunner.java:108) ...

我尝试寻找此问题的解决方案,但不幸的是,我还没有找到适合我情况的解决方案。重新启动 Dataflow 作业最初似乎有所帮助,但 19 天后,问题再次出现。

扩大数据流工作人员似乎并不能解决问题,并且通常的排出过程不再按预期工作。

是否有其他人在 Dataflow 作业中遇到类似的 DLQ FileNotFoundExceptions 问题?如果您有任何见解或建议可以帮助永久解决此问题,我将不胜感激。

提前谢谢您:)

google-cloud-platform google-bigquery google-cloud-dataflow apache-beam google-datastream
1个回答
0
投票

我也面临着同样的问题。我有一个Python梁数据流滑动窗口代码,但我正在弄清楚如何捕获有错误的事件并将它们写入发布/订阅主题或bigquery以供以后分析。因此,我可以允许数据流管道永久工作。

© www.soinside.com 2019 - 2024. All rights reserved.