google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

如何使用Python API列出所有数据流作业

我的用例涉及获取项目中存在的所有流数据流作业的作业 ID 并取消它。更新我的数据流作业的源并重新运行它。 我正在尝试使用...来实现这一目标

回答 3 投票 0

在全局窗口中加入多个pCollection

我想构建一个 Beam 程序来 流式读取 Pub/Sub 消息,类似于 {"user_id":"u1"} 使用用户 ID 从 7 个以上 BigQuery 表中检索数据。由于性能我...

回答 1 投票 0

tensorflow 数据验证 tfdv 在 Google Cloud 数据流上失败,并显示“无法获取属性‘NumExamplesStatsGenerator’”

我正在关注这个“入门”张量流教程,了解如何在谷歌云数据流上的 apache beam 上运行 tfdv。我的代码与教程中的代码非常相似: 导入

回答 1 投票 0

带有 STORAGE_WRITE_API 的数据流 WriteToBigQuery 不接受以下划线开头的字段

部署此步骤时 写入BigQuery( 方法='STORAGE_WRITE_API', 表=[表], schema=[GCS 桶上的架构路径], ...

回答 1 投票 0

Apache Beam:窗口关闭后等待 N 秒以执行 DoFn

我有实时数据被发布并以同步方式读入数据流管道。 我收集数据,对其进行窗口化(固定为 1 秒)并进行累积,然后将其写入 Firestore DB。 那个...

回答 1 投票 0

Google 数据流将数据写入 CloudSQL postgres | java.sql.SQLException:无法创建 PoolableConnectionFactory(连接尝试失败。)

我正在尝试使用 google dataflow 创建 ETL 管道,将数据写入 CloudSQL postgres 数据库。但我在连接到云 sql 实例时遇到错误。 字符串 jdbcConURL = "jdbc:

回答 1 投票 0

BigQuery 表架构类型在 apache beam 中未正确转换

当前用于 BigQuery 的 python Apache Beam SDK 中存在一个错误,该错误将 BQ TIMESTAMP 错误地转换为 BQ DATETIME。这似乎已被修复,但我有一种感觉,它可能是在预

回答 1 投票 0

Apache Beam Python ReadFromPubsub IO 中的内存泄漏

概述 我们有一个 Dataflow 流管道,它从 pubsub 订阅中读取消息,将 dict 转换为数据类并将数据写入 postgres。我注意到有时候,pubsub

回答 1 投票 0

Azure数据工厂-数据流-SINK-如何配置分区文件大小

我正在将 blob avro 文件从 azure blob 复制到 azure 数据湖。 我创建了一个数据流,有三个分区列:grid_id、_year、_month 在 Sink-Optimize 选项卡中“设置分区”...

回答 1 投票 0

具有多个Python依赖项的模板数据流

我正在尝试从具有多个文件依赖项的管道在 Python 中创建模板数据流。 这是项目结构: 根 | ----> 项目目录 | ----> __init__.py ...

回答 2 投票 0

SSIS 数据流架构

这似乎是一个显而易见的答案,但我想确认一下。 如果我们有一个 SSIS 包(2016 或 2019)将数据从数据库 A 移动到数据库 B,数据是否通过 SSIS 服务移动...

回答 1 投票 0

Java 17 升级后,Google Cloud Dataflow 对新代码的代码覆盖率未超过 SonarQube 中的阈值

最近,我将我的云数据流应用程序从 Java 11 升级到了 Java 17 及其相应的依赖项。该应用程序运行良好,甚至测试用例也运行良好。我也升级了...

回答 1 投票 0

用于实施数据流和数据流进行分析的数据流作业中出现死信队列失败

我目前正在使用 GCP Dataflow 从云存储中获取数据并将其加载到 BigQuery 中,按照本教程中概述的步骤操作:https://cloud.google.com/datastream/docs/implementing-

回答 1 投票 0

GCP 数据流工作流程失败

我在 Google Cloud Dataflow 上运行作业时反复收到错误。我一直在尝试创建一个作业,对存储在存储桶中的文本文件中的单词进行计数。我只是选择了一个 Dat...

回答 1 投票 0

数据流中的“无根单位”错误,从 Golang 中的 PubSub 到 Bigquery

我正在尝试从 PubSub 读取消息,然后写入 DataFlow 中的 BigQuery 表。但是,我通过使用直接运行器遇到了“无根单位”错误。 这是我的代码; 包主 导入...

回答 2 投票 0

当集合大小为0时,如何防止数据流管道中写入空文件?

我有一个数据流管道,我正在解析一个文件,如果我得到任何不正确的记录,那么我会将其写入GCS存储桶,但是当输入文件数据中没有错误时,TextIO仍然会写入e.. .

回答 2 投票 0

摄入 BQ 时出现 ä 等特殊字符的数据流问题(不同口音的问题)

我面临使用数据流将 API 摄取到 BQ 中的问题。在数据流中,我提取内容并将其传递到 BQ,而不进行任何解析。然而,它像贝洛一样进入了 BQ...

回答 1 投票 0

GCP Dataflow 批处理

我正在为 GCP Dataflow 批处理进行 POC。 我想将 Pandas Dataframe 作为批量输入传递并执行列式转换并再次返回同一批次。 我参考下面提供的示例...

回答 1 投票 0

将 Apache Beam 标记输出(数据流运行程序)写入不同的 BQ 表

我似乎在将标记的 PCollection 写入 BQ 中的多个目标表时遇到问题。管道执行时没有错误,但没有数据写入。 如果我在没有

回答 3 投票 0

我有一个旧的数据流模板,我们更新了数据库安全性,现在我需要暂存和额外的文件才能使其工作

我有一个问题,这让我很烦恼,我写这篇文章是为了寻找解决方案。 在我的旧架构中,一切都工作正常: 我们在 JDBC 中有一些数据,可以从特定的地方访问...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.