google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

Pardo函数在google数据流中不产生任何输出。

我试图在dataflow中创建我的第一个pipleine,我有相同的代码运行时,我执行使用交互式beam runner,但在dataflow上,我得到的所有类型的错误,这是不多......

回答 1 投票 0

在数据流上触发Apache beam windowing,使用 elementCountAtLeast时没有像预期的那样发射。

我想让apache beam在一定数量的元素到达后发射。Apche beam的版本是2.18.0,我从pubsub消耗,但数据到达的模式是事先知道的......。

回答 1 投票 0

会话窗口化是否已经将数据洗牌到同一个worker中?

我的流水线的简单伪代码:流水线 .apply(KVPair) .apply(sessionWindow) .apply(groupByKey) 我的问题是:要想实现会话窗口化,beam是否已经将所有数据与 ...

回答 1 投票 0

如何使用Dataflow更新IoT设备配置(在Cloud IoT Core中)?

我正在使用谷歌云平台来收集物联网数据。然后会进行分析,可能是在AI Platform中进行分析,我想把一些检索到的数据作为配置设置发送给IoT设备。我见过...

回答 1 投票 0

数据流的附加参数进入光束管道

我正在研究Dataflow,我已经通过Python SDK建立了我的自定义管道。我想在Dataflow用户界面上添加参数到我的自定义管道中,使用附加参数。...

回答 1 投票 0

如何在Apache beam中读取带有起始日期的pubsub信息?

我有一个简单的工作是从pubsub读取历史数据,以日期为界,例如我想从日期2020-04-10开始读取消息,2020-04-20,然后每天将消息保存在google bucket中......。

回答 1 投票 0

我们可以在apache-beam中使用FTP导入数据吗?

我正在使用Apache-Beam编写一个数据流工作,它需要使用FTPS [from ftplib import FTP_TLS] 服务器在BigQuery中导入数据。但是当我尝试导入FTPS类[ftps = FTP_TLS('...

回答 1 投票 0

在从模板(云数据流)中创建作业时,在分配临时位置时出错,在谷歌云平台上。

我试图在GCP中使用数据流模板创建一个数据流管道。在数据流模板中创建作业时,在分配临时位置时出现了错误。错误行被提到...

回答 1 投票 0

有没有办法使用gcloud命令更新Dataflow作业?

我试图编写一个脚本来自动部署Java Dataflow作业。该脚本创建了一个模板,然后使用命令 gcloud dataflow jobs run my-job --gcs-location=gs:/my_bucket ...

回答 1 投票 0

合并BigQuery和Pub / Sub Apache Beam

我正在尝试使用DataFlowRunner执行以下操作:从已分区的BigQuery表中读取数据(大量数据,但仅获得了最后两天)从Pub / Sub订阅中读取JSON加入这两者...]]

回答 1 投票 3

在Apache Beam Java中将List与自定义POJO Java类一起使用时收到很多警告

我是Apache Beam的新手,我使用Apache Beam和GCP中的Dataflow作为运行程序。在执行管道时遇到以下错误。类org.apache.beam.sdk.coders.ListCoder类型的编码器具有...

回答 1 投票 0

使用Google Dataflow优化使用BigQuery资源从GCS加载200万个JSON文件

我有一个庞大的数据库,其中包含约240万个JSON文件,它们本身包含多条记录。我创建了一个简单的apache-beam数据管道(如下所示),该管道遵循以下步骤:读取...

回答 1 投票 0

基于基于Apache Beam的计数进行过滤

我正在使用数据流和Apache Beam处理数据集并将结果存储在具有两列的无标题CSV文件中,如下所示:A1,a A2,a A3,b A4,a A5,c ...我想要过滤掉...

回答 1 投票 0

数据流作业没有任何输出

我有一个问题,其中数据流作业实际上运行良好,但是在手动将其排干之前它不会产生任何输出。使用以下代码,我假设它将产生窗口...

回答 1 投票 0

AttributeError:'function'对象没有属性'tableId'。 Apache Beam数据流运行器

[我正在尝试从Apache Beam PTransform WriteToBigQuery()写入bigquery,当我为该表提供一个lambda函数时,该函数会读取字段“ DEVICE”的值,但会出现错误。我做了...

回答 2 投票 0

Google数据流警告`到InMemory的Rpc已完成,错误已终止:由于陈旧而退出了]

我们的谷歌云数据流作业抛出以下警告:Rpc到InMemory已完成,错误已终止:由于陈旧而被驱逐Rpc到job-vqmu-harness-9lss:12345并已完成,错误...

回答 1 投票 0

没有这样的容器(使用worker_harness_container_image)

我正在尝试使用标志--experiment = beam_fn_api --worker_harness_container_image = gcr.io / ...在Google Cloud Dataflow(Job-ID:2020-06-08_23_39_43-14062032727466654144)上运行Apache Beam Job

回答 1 投票 0

Apache光束列表到PCollection

我的输入是json列表,我想拥有多个元素PCollection。这是我的代码:def parse_json(data):在json.loads(data)中为i导入json:返回i data =(p |“ ...

回答 1 投票 0

BigqueryIO文件加载:仅在需要时使用其他分片

我有一个数据流作业,它从pubsub读取,将PubsubMessage转换为TableRow,然后使用FILE_LOAD方法(每10分钟,1个分片)将该行写入BQ。作业有时会抛出...

回答 1 投票 0


© www.soinside.com 2019 - 2024. All rights reserved.