google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

使用PubsubIO的Java OutOfMemoryError

我在Java中编写一个简单的Dataflow管道:PubsubIO - > ConvertToTableRowDoFn - > BigQueryIO管道正在运行 - 数据按预期到达BigQuery - 但我看到了OutOfMemoryErrors ...

回答 1 投票 1

BigQueryIO.read()。fromQuery性能缓慢

我注意到的一件事是,BigQueryIO.read()。fromQuery()的性能比Apache Beam中的BigQueryIO.read()。from()的性能要慢得多。为什么会这样?并且是 ...

回答 1 投票 5

使用连接从BigQuery读取批量数据

我有一个用例,我必须通过在20个不同的BQ表上应用左连接来读取BigQuery中的选定数据,对该数据应用转换,然后最终转储到最终的BQ表中。 ...

回答 1 投票 0

使用Apache Beam的Join类时出现问题

我正在编写一个代码来使用Apache做一个LeftOuterJoin,使用apache提供的类来轻松地工作apache提供一个连接类org.apache.beam.sdk.extensions.joinlibrary.Join;虽然......

回答 1 投票 1

如何在Dataflow中创建引用服务帐户json文件的GoogleCredential对象?

我编写了一个管道,通过引用G套件java-quickstart提取G套件活动日志,其中代码读取client_secret.json文件,如下所示,InputStream in = new FileInputStream(“D:// ...

回答 2 投票 0

为Dataflow和Apache Beam创建一个超级jar

我想使用Maven创建一个包含我的管道,Dataflow和Apache Beam的超级jar,是否有一个我可以看到的例子?

回答 1 投票 1

Python数据流模板,使运行时参数可全局访问

因此,管道的目标是能够使用运行时变量来打开csv文件并命名BigQuery表。我需要的是能够全局访问这些变量,或者在...内

回答 1 投票 0

Uberjar只有依赖

我正在使用谷歌云数据流来运行具有大量依赖关系的apache beam作业。通常情况下,除非我对整个项目进行整理,否则数据流将拒绝执行图形,因为依赖...

回答 1 投票 0

在GCP上向数据流作业添加更多工作者

我正在创建一个将CSV导入BQ的dataprep流程。这很好,但需要很长时间。即使是非常小的文件。有没有办法在工作中增加更多工人? maxNumWorkers总是1 ...

回答 1 投票 0

Python - 使用数据流模板进行Dict的CSV文件

我正在尝试使用Dataflow模板和Python将CSV文件处理为dict。由于它是一个模板,我必须使用textio模块中的ReadFromText,以便能够在运行时提供路径。 | ...

回答 2 投票 0

Airflow可以运行流式GCP Dataflow作业吗?

我正在寻找用于流式传输GCP Dataflow工作的编排软件 - 这可以提供警报,状态,工作启动等等,类似于Kubernetes上的工作。这里的答案表明......

回答 1 投票 4

Cloud Pub / Sub to GCS,每个元素写入(Dataflow Pipeline)

每次从Pubsub收到消息时,如何写入GCS,它会窗口写入,但不会按元素写入。关于此事的任何提示都非常感谢。示例链接(https:// ...

回答 3 投票 3

要从Google云端存储读取到本地计算机的数据流

我尝试了一个数据流作业来读取Google云端存储并写入本地计算机。我使用了DirectPipelineRunner。工作顺利完成。但我没有看到我的本地写的文件...

回答 1 投票 1

有没有办法为具有自动缩放功能的 Cloud Dataflow 指定最小工作人员数量?

我想为我的工作指定最低工作人员数量,自动缩放不会低于该数量(类似于 max_num_workers 的工作方式)。这可能吗?我的理由是有时工人会...

回答 5 投票 0

更新bigquery表的不同方法

在gcp中,每当文件(多种格式,如json,xml)上传到存储桶时,我都需要更新一个bigquery表。我有两个选择,但不确定每个选项的优缺点是什么。能够 ...

回答 1 投票 2

DoFn进程返回类型

在Beam 2.3.0中,DoFn进程API需要在Beam 2.4.0中通过yield返回生成器,从进程API返回像字典这样的对象可以正常工作。 ......有变化吗?

回答 1 投票 2

了解Dataflow如何进行融合优化的最佳方法是什么?

我正在尝试优化从PubSubIO中提取消息的管道,并将这些消息发送到第三方API。我有一个有趣的观察是,如果我放置一个GroupBy和一个“Degroup”变换......

回答 1 投票 0

Google Cloud DataFlow Autoscaling无法正常工作

我正在运行一个有800K文件要处理的数据流作业。工作ID是2018-08-23_07_07_46-4958738268363865409。据报道它已经成功列出了800K文件,但由于一些奇怪的原因,......

回答 1 投票 1

如何重新启动已取消的Cloud Dataflow流式传输作业?

我已经为BigQuery数据流创建了一个标准的PubSub。但是,为了确保我不会在离线时运行巨额账单,我取消了数据流。从GCP控制台,没有......

回答 1 投票 2

删除Apache Beam 2.2.0中的Bigtable行

在Dataflow 1.x版本中,我们可以使用CloudBigtableIO.writeToTable(TABLE_ID)来创建,更新和删除Bigtable行。只要DoFn配置为输出Mutation对象,它就可以输出......

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.