google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

启动数据流弹性模板时遇到问题

我在启动数据流弹性模板时遇到以下问题。 启动器容器中发生错误:模板启动失败。查看控制台日志 12月13日之前一切都很好,...

回答 4 投票 0

为什么我在 adf 数据流中的导入投影会以奇怪的格式重命名列?

为什么我在 adf 数据流中的导入投影会以奇怪的格式重命名列? 在重置数据流源的架构时,推断列如下(这也是期望的结果...

回答 1 投票 0

如何减少与上游和下游流数据流作业连接的GCP云SQL实例的存储?

我们在 GCP 中使用 Cloud SQL 实例,其中包含 15(SSD) 数据 (Postgress)。有一些流数据流作业将数据写入 Cloud SQL 的源架构,还有一些其他

回答 1 投票 0

Apache Beam BigqueryIO(Java)io.grpc.StatusRuntimeException:INVALID_ARGUMENT:创建 upsert 流需要主集群键

我正在使用apache beam java从一个bigquery表中读取并使用applyRowMutations()写入另一个bigquery表,但它不起作用。 我已经使用

回答 1 投票 0

如何在 Kafka-Bigquery Dataflow Flex 模板中设置参数

我一直在尝试使用数据流弹性模板从 Kafka 消费者连接到 Bigquery。以下是我的配置 - gcloud dataflow flex-template run first-kafka --template-file-gcs-location gs://

回答 1 投票 0

连接两个Pcollection时没有schema时无法调用getSchema

我希望你一切都好。 我有两个 PCollection,我想应用 leftOuterJoin,但是当我执行此操作时,出现此错误,我不明白为什么: java.lang.IllegalStateException: Cannot

回答 1 投票 0

在 Python 中使用 Apache Beam 在 GCP Dataflow 中创建模板

任务: 我需要从本地 Oracle 获取数据并将其转储到 BigQuery 中。 我尝试过的选项 有多种方法可以实现相同的目的。 我尝试了第一个选项,即使用 Datastream 但由于

回答 1 投票 0

问题回复:FailedInserts PCollection / Beam 2.45 与 2.49 行为确认

上下文:GitHub 问题 26853 我对上述引用的功能请求以及 Beam 2.45 与 2.49 的差异有疑问。 如果 FailedInserts PCollection 未被消耗,BigQueryIO...

回答 1 投票 0

如何获取Dataprep作业的Dataflow模板?

我工作的客户将于 10 月份弃用 Dataprep,我们目前使用 Google Cloud Platform 进行所有工作。 Dataprep 是一个在数据流下运行的“漂亮”层, 目前,...

回答 1 投票 0

GCP PubSub 到 GCS 数据流

我有一个用例,可以在以下条件下从 PubSub 在 GCS 存储桶中创建文件: 窗口大小限制 发布到 PubSub 主题的消息大小超过 500MB 例如, i) 如果我们指定窗口 si...

回答 1 投票 0

运行数据流管道时如何重用VMS

我正在使用 GCP 上的数据流管道将数据插入 BigQuery。然而,每次我运行它时,它都会为该作业创建一个新的虚拟机。我想要的是运行多个作业但重用虚拟机。例如,ins...

回答 1 投票 0

BigQuery:表的上次修改日期不一致

我有一个基于java的定制云数据流作业,它更新目标项目中的bigquery表,我在一个月前的2023年8月12日停止了该作业。 然而我查看了云日志记录,我...

回答 1 投票 0

持久化到 BigQuery 时出现云数据流错误

我们有一个批处理云数据流管道作业运行了很长时间,突然开始失败。 一般来说,根据运行的数据量和历史作业,它会在大约 10 分钟内完成,但是......

回答 1 投票 0

GCP DataFlow 数据访问审核日志 - 如何为 Dataflow 作业启用数据访问日志?

在Google官方文档(https://cloud.google.com/dataflow/docs/audit-logging)中提到您必须显式启用数据访问日志。 要接收数据访问日志,我们必须做...

回答 1 投票 0

数据流作业失败且不显示日志

我使用标准模板 JDBC to BigQuery 在 Dataflow 中创建了管道,但有一些作业意外失败并且不显示任何日志。 问题是,当工作失败时,因为......

回答 2 投票 0

GCP 数据流 - 梁管道返回空文件

我想使用数据流在 GCS 存储桶中的每个文件之间映射函数。我想我已经很接近了,但由于某种原因,结果只是一个空文件。我在下面包含了我的代码,重现了专业版...

回答 1 投票 0

使用数据流Kafka到bigquery模板时出错

我正在使用数据流kafka到bigquery模板。启动数据流作业后,它会在队列中停留一段时间,然后失败并出现以下错误: 启动器容器中发生错误:Template lau...

回答 3 投票 0

无法运行apache dataframe程序错误

我正在尝试读取 CSV 文件并使用 apache_beam.dataframe 转换为 Beam 数据帧。 每当我使用梁数据框库时,我都会收到以下错误。 错误:属性错误:类型 obj...

回答 1 投票 0

Beam 作业在本地计算机上成功运行,但在数据流运行器上失败

我构建了一个梁作业,其中: 从 pubsub 读取数据(例如 {"user_id":"u1", "event_name":"logout", "region":"US"} 等消息) 从

回答 1 投票 0

如何在 Apache Beam 管道中记录传入消息

我正在编写一个简单的 apache beam 流管道,从 pubsub 主题获取输入并将其存储到 bigquery 中。几个小时以来,我以为我什至无法阅读消息,因为我只是在尝试......

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.