google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务，可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型，可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

云调度程序在部署数据流作业时出现“INVALID_ARGUMENT”错误（使用 Flex 模板）

我有一个云调度程序，它应该使用 Flex 模板部署数据流作业。我进行了 terraform 更改来创建云调度程序，从而创建云调度程序作业。然而，当我

google-cloud-platform google-cloud-dataflow gcloud google-cloud-scheduler

回答 1 投票 0

如何使用 Java 客户端 SDK 列出所有正在运行的 GCP Dataflow 作业

我想知道是否可以使用 Java 客户端 SDK 列出所有正在运行的数据流作业。我想我可能需要使用： JobsV1Beta3Client jobsV1Beta3Client = JobsV1Beta3Client.create();

java google-cloud-dataflow

回答 1 投票 0

apache beam WirteToBigQuery 写入优化

我有一个流管道，我在其中应用 30 秒的窗口并分组在 (“customerId”+“siteId”，element) 元组中。如何根据公司应用动态表名称...

google-bigquery google-cloud-dataflow apache-beam-io

回答 1 投票 0

如何在java中使用mocks测试doFn？

是否可以将模拟与 doFn 一起使用？我在 doFn 中有一个从 gcs 存储桶读取的处理方法，我想测试一下。我尝试使用 LocalStorageHelper 但它不支持存储桶获取

java junit mockito google-cloud-dataflow apache-beam

回答 1 投票 0

如何在传递给 pardo 时修改数据流运行时值提供程序参数？

我在尝试修改传递给 Apache Beam Dataflow 管道中 RuntimeValueProvider 的参数时遇到问题。这是我的代码的简化版本：导入 apache_beam...

python google-cloud-dataflow apache-beam

回答 1 投票 0

python 数据流：GroupByKey 无法应用于具有全局窗口和默认触发器的无界 PCollection

我有一个简单的 python 数据流代码，它使用无界 pcollection 。它只是从 pubsub 读取解析为带有输出标签 SUCCESS 和 FAILURE 的 json 使用输出标签 SUCCESS 和 F 验证 json...

python google-cloud-dataflow apache-beam google-cloud-pubsub

回答 1 投票 0

Apache Beam 优化 Firestore 读取 python

我有传感器数据到达 pub/sub (protobuf)，它作为 python 字典插入到“pipeline_fstore”中。数据一次到达。在管道中，在“添加元数据...

python google-cloud-firestore google-cloud-dataflow apache-beam

回答 1 投票 0

Airflow 将数据流任务标记为失败，但实际上成功了

我正在使用 gcloud。借助 Composer，我拥有了一个可以安排不同任务管道的气流环境。这些管道之一包括：为数据流作业做准备的几个任务数据流...

airflow google-cloud-dataflow google-cloud-composer

回答 1 投票 0

如何检查 BigQuery 表的状态

我有一个写入 BigQuery 表的数据流作业。每个数据流作业都会创建一个新表。我意识到对 BigQuery 表的写入操作是异步的，即对

java google-cloud-platform google-bigquery google-cloud-dataflow apache-beam

回答 1 投票 0

为什么我的数据流管道没有显示无法插入 BigQuery？

我用 Go 编写了一个数据流管道，它从 Pub/Sub 订阅中读取数据，执行转换，然后将记录写入 BigQuery。它看起来运行良好，但我看不到数据......

google-bigquery google-cloud-dataflow google-cloud-pubsub

回答 1 投票 0

在 apache beam ReadFromKafka 中的一个主题中可以确定分区位置之前的超时

我正在从事 Google 数据流工作，我正在使用 apache beam ReadFromKafka 来消费主题消息。我正在消耗 4 个主题。在我们向我们的 kafka clu 添加新的代理之后，管道曾经工作正常......

python java apache-kafka google-cloud-dataflow apache-beam

回答 1 投票 0

数据流apache beam中的问题读取功能

我正在 Google Dataflow 上使用 Apache Beam，并且正在调用 3 个函数 | "Unnest 1" >> beam.Map(lambda record: dict_level1(record)) | "Unnest 2" >> beam.Map(la...

python google-cloud-dataflow beam

回答 1 投票 0

阿帕奇光束|无法安装 apache beam 并显示子进程错误

我已经安装了最新的 pip、python 3.12，但什么都没有..仍然显示此错误： “为收集的包构建轮子：grpcio-tools grpcio-tools 的构建轮子（setup.py）：已启动

google-cloud-platform google-bigquery google-cloud-dataflow apache-beam data-pipeline

回答 1 投票 0

GCP Dataflow 流作业/管道（不成功）耗尽超过 24 小时至 48 小时

我有一个数据流作业，它从 Cloud Spanner 更改流中读取并将其写入 GCS。我在 36-48 小时前开始耗尽作业，但作业从未离开耗尽状态。然后我也取消了

google-cloud-platform google-cloud-storage google-cloud-dataflow google-cloud-spanner

回答 2 投票 0

如何使用 DataFlow 将数据从 Pub/Sub 流式传输到 Google BigTable？

我想问是否有人可以告诉我，甚至给我展示一个数据流作业模板的示例，最好是用 Python 编写，我可以在其中：持续从 Pub/Sub 主题读取 JSON 数据处理这个数据...

google-cloud-dataflow apache-beam google-cloud-pubsub google-cloud-bigtable bigtable

回答 1 投票 0

在结构中的数据流中添加新列，作为两个现有列的组合

我在结构中的数据流中有一个表，其中有几列，其中一列带有“LastName”，另一列带有“FirstName”。在此输入图像描述我想添加另一个...

google-cloud-dataflow fabric

回答 1 投票 0

数据流从Kafka读取数据不会丢失？

我们目前是 Dataflow 批处理作业的大用户，并且希望开始使用 Dataflow 流（如果可以可靠地完成）。这是一个常见的场景：我们需要一个非常大的 Kafka 主题......

google-cloud-platform apache-kafka google-cloud-dataflow apache-beam

回答 1 投票 0

在 GCP Dataflow 上以编程方式部署和运行 Beam 管道

我正在尝试使用 google-cloud-dataflow 以编程方式在 GCP 数据流上部署一些光束管道，但不确定如何做到这一点。这些管道已经打包为 jar，我的目标是......

google-cloud-dataflow apache-beam

回答 1 投票 0

如何预构建worker容器Dataflow？ [洞察“SDK Worker容器镜像预构建：可以启用”]

我想知道如何预构建工作容器并同时使用 setup.py 文件来实现多个文件依赖项。即使当我使用这个官方模板时，我仍然有见解：“SDK

google-cloud-platform google-cloud-dataflow apache-beam

回答 1 投票 0

数据流流管道中的全局窗口侧输入停止固定窗口阶段

我正在使用数据流流管道，并且遇到了一个问题，即在全局窗口中使用侧面输入会锁定使用 30 秒固定窗口的主分支。所有的...

google-cloud-dataflow apache-beam

回答 1 投票 0

google-cloud-dataflow 相关问题

最新问题