google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

如何预构建worker容器Dataflow? [洞察“SDK Worker容器镜像预构建:可以启用”]

我想知道如何预构建工作容器并同时使用 setup.py 文件来实现多个文件依赖项。 即使当我使用这个官方模板时,我仍然有见解:“SDK

回答 1 投票 0

数据流流管道中的全局窗口侧输入停止固定窗口阶段

我正在使用数据流流管道,并且遇到了一个问题,即在全局窗口中使用侧面输入会锁定使用 30 秒固定窗口的主分支。所有的...

回答 1 投票 0

名称错误:运行“创建梁行-ptransform”时未定义名称“梁”

我正在研究一个用例,我正在从 PubSub 读取内容,并且我想编写聚合的内容 值到 bigquery。 这是我正在写给该主题的 PubSub 输入: b"('B', 'Stream1', 77)&q...

回答 1 投票 0

生成ETL过程的数据流图

我想为 ETL 流程生成类似数据流程图的内容。 我想要实现的是拥有(最小的示例)两个表 - 源表和目标表 - 两个表都带有

回答 1 投票 0

Airlfow DAG DataflowTemplatedJobStartOperator 与 Google 提供的模板 GCS_Text_to_Cloud_PubSub

基本上,我只想使用现有的 Google 模板 GCS_Text_to_Cloud_PubSub 在我的 DataflowTemplatedJobStartOperator 的 DAG 中使用它。 我搜索了很多但找不到下载的方法...

回答 1 投票 0

通过数据流将 GCP PubSub 集成到 DLP

我这里有情况。我想找出将 API 流数据从应用程序提取到 GCP BigQuery 的最佳方法,同时进行数据屏蔽。然而,一些下游管理员用户...

回答 1 投票 0

Apache Beam 管道功能不并行运行

我的管道中有一个 Dofn 函数,它在 GCP 数据流中运行,并且应该为每个产品并行执行一些处理。 类Step1(DoFn): def 过程(自身,元素): # 得到一个...

回答 1 投票 0

如何从 CSV 文件中获取不同的日期并在 Azure DataFactory Pipeline 上迭代删除查询

我想将薪资数据从位于 Azure BLOB 存储中的 csv 文件导入到 ADF 上的 Azure 数据库中。由于如果批量的 PaycheckDate 已经在桌子上,那么薪水时间表是固定的,

回答 1 投票 0

酸洗时数据流模板启动失败

我的数据流管道如下 pipeline_options = PipelineOptions( pipeline_args、streaming=True、save_main_session=True、sdk_location=“容器” ) 与管道(

回答 1 投票 0

AttributeError:“RuntimeValueProvider”对象没有属性“projectId”

我正在尝试在Dataflow runner中运行apache beam管道;该作业从 bigquery 表中读取数据并将数据写入数据库。 我正在数据流中使用经典模板选项运行作业 - ...

回答 2 投票 0

如何在 Azure 数据工厂中批量处理数据库增量 sql 文件以更新 MySQL 数据库

我有一个数据库增量 .sql 文件,其中包含对 MySql 数据库中表的更新。我知道数据工厂可以执行 sql 语句,我可以解析 .sql 文件,将 csv 分割为 delim...

回答 1 投票 0

GCP MongoDB 到 BigQuery CDC 模板不会从 MongoDB 更改流传输/读取数据

我正在将 MongoDB 配置为 BigQuery CDC 模板。该作业能够连接到 MongoDB 并启动。但它不会自动处理任何变更流。当我手动发布消息时...

回答 2 投票 0

使用 ADF,如何根据变量标头值提取特定行?

我有一个 CSV 文件(如果你可以这样称呼它的话),如下所示: 客户数据,,,,, 开始日期: 2021年2月26日 结束日期: 2022年2月26日,,,,, 自定义 ID:BLAH-BLAH,,,,, ,,,,,, 列 1,列 2,,,, 1、asdfasdf,,,, {

回答 1 投票 0

如何避免在写入固定窗口输出的 Google Dataflow 流管道中进行随机播放

希望实现一个 Dataflow(或 flink)流管道,从 pub-sub 读取数据,将数据转换为 parquet,并每隔几分钟写入输出。 这需要固定窗口吗?如果是的话...

回答 1 投票 0

如何使用 ADF 管道中的数据流活动仅获取从源到接收器端的更新记录

我正在尝试创建一个管道,用于将数据从源复制到接收器,有 3 列,我只想从源表中更新记录。 使用数据流转换和 Alter row using alter row

回答 1 投票 0

Node JS API 数据流吗

我们有一个托管在 Microsoft Azure 中的 React Web 应用程序。它连接到 API 层,然后连接到我们的后端服务和数据库。 当用户加载页面时,React Web 应用程序是否连接到/

回答 1 投票 0

数据流作业在 CPU 利用率达到 ~100% 后反复停止虚拟机并启动另一个虚拟机,而不是并行工作

我有一个批处理数据流作业,它从 Bigquery 读取一些列,将它们转换为 beam.Row 格式,然后并行地为每列应用 SqlTransform。我将工人数量设置为...

回答 1 投票 0

如何查找 Google Data flow SDK 管道使用的工作人员数量

我有一个数据流作业,它正在云中执行。我可以看到正在执行的作业以及正在执行的步骤 但是我在哪里可以找到从事我的工作的工人数量呢? 这只是...

回答 2 投票 0

如何使用azure数据工厂的数据流中的select语句将源列映射到接收器列

尝试创建一个管道,使用数据流转换、使用 select 语句将数据从源获取到目标。在这里,我突然想到我们有一个到接收器侧的源列信号状态图

回答 1 投票 0

Psycopg2“尝试在数据流多线程中放置未加密的连接”

我已尝试此处描述的解决方案但不起作用。 我的数据流管道将读取消息并连接到 Postgre SQL 进行一些检查。所以我在

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.