BigQuery无法插入作业。工作流程失败

问题描述 投票:3回答:1

我需要通过Dataflow和Beam从GCS到BigQuery运行批处理作业。我所有的文件都是具有相同架构的avro。我创建了一个数据流Java应用程序,该应用程序可以处理较小的数据集(约1GB,约5个文件),并且成功。但是,当我尝试在更大的数据集(> 500gb,> 1000个文件)上运行它时,我收到一条错误消息

java.lang.RuntimeException: org.apache.beam.sdk.util.UserCodeException: java.lang.RuntimeException: Failed to create load job with id prefix 1b83679a4f5d48c5b45ff20b2b822728_6e48345728d4da6cb51353f0dc550c1b_00001_00000, reached max retries: 3, last failed load job: ...

重试3次后,终止于:

Workflow failed. Causes: S57....... A work item was attempted 4 times without success....

此步骤是BigQuery的加载。

[堆栈驱动程序说处理滞留在步骤...中,持续10m00s ...]]

Request failed with code 409, performed 0 retries due to IOExceptions, performed 0 retries due to unsuccessful status codes.....

我查询了409错误代码,指出我可能已经有一个作业,数据集或表。我已经删除了所有表并重新运行了该应用程序,但仍显示相同的错误消息。

我目前仅限65名工人,而我使用的是n1-standard-4 cpus。

我相信还有其他方法可以将数据从gcs移到bq,但是我需要演示数据流。

我需要通过Dataflow和Beam从GCS到BigQuery运行批处理作业。我所有的文件都是具有相同架构的avro。我创建了一个数据流Java应用程序,该应用程序可以处理较小的数据集(〜...

google-cloud-platform dataflow stackdriver
1个回答
-1
投票

“ java.lang.RuntimeException:无法创建带有前缀beam_load_csvtobigqueryxxxxxxxxxxxxxx的作业,已达到最大重试次数:3,最后一个失败的作业:null。在org.apache.beam.sdk.io.gcp.bigquery.BigQueryHelpers $ PendingJob.runJob(BigQueryHelpers.java:198).....“

© www.soinside.com 2019 - 2024. All rights reserved.