google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

dataflow python - KeyError 即使没有输入到步骤并且匹配案例存在密钥

我正在编写一个数据管道来提取具有不同属性结构的 4 种类型的 json,并将其写入 Bigquery。 我的管道: 数据=(管道 | “来回阅读...

回答 0 投票 0

Apache Beam Map、DoFn 和 Composite Transform

我想了解 Map 函数、从 Pardo 调用的 DoFn 和 Composite 转换之间的用例的区别。 对于

回答 0 投票 0

如何使用定期刷新的辅助输入在本地测试我的数据流作业?

我有一个 Java 数据流作业,它从 PubSub 主题读取输入消息,接受每小时刷新一次的辅助输入,结合来自辅助输入和 PubSub 消息的信息,并且是

回答 0 投票 0

Apache Beam 用于功能创建

我正在尝试使用 Apache Beam 来创建功能。我查看了 SO 和 Beam Dataframe API 文档,但我还没有看到它解决了我遇到的问题。 从我从文档中看到的内容来看,每个 r ...

回答 1 投票 0

在Dataflow作业中查找重复的数据 - Python

我想用这个例子创建一个工作流:https:/github.comGoogleCloudPlatformprofessional-servicestreemasterexamplescloud-composer-examplescomposer_dataflow_examples我想做 ...

回答 2 投票 1

GCD中奇怪的内存使用图表

我在Google Cloud Dataflow中执行了一个作业,现在我在StackDriver上看到了结果。我不明白这个内存图表。我只用了1个和3个worker之后,但是这个图表的比例是顺序的...。

回答 1 投票 0

在Apache-Beam管道中提供用python编码的BigQuery证书。

我试图在我的梁管线中使用云数据流运行器从bigquery读取数据。我想提供一个凭证来访问项目。我在Java中看到过一些例子,但在Python中没有。唯一的...

回答 1 投票 0

从本地SQL服务器导入数据到谷歌Bigtable的最佳方法。

我需要每天从我们本地的SQL服务器导入大量的数据到Bigtable。每天有1-2亿行。我试着用它的写API来发送数据到Bigtable,但速度非常慢(大约20M ...

回答 1 投票 0

在Apache Beam (2.5.0)中窗口化后的GroupByKey不会产生输出。

我使用的是固定窗口,我应用于一个PCollection,以便在一个非绑定的源上进行GroupBy,如下所示。PCollection >> grouppedBy = ...

回答 1 投票 0

用Java执行Bigquery Merge DML。

我做了一个DML指令,在Bigquery中每小时运行一次,类似于这个指令。MERGE dataset.DetailedInventory T USING dataset.Inventory S ON T.product = S.product WHEN NOT MATCHED... ...

回答 1 投票 0

Apache Beam Python SDK - 不准确的会话窗口时间间隔

我试图使用Apache Beam Python SDK以60分钟的会话时间间隔处理数据。但是实际的会话间隔并不准确,比如3:00:00或1:01:00或1:50:00,当我运行我的 ...

回答 1 投票 0

数据流僵尸作业--作业更新时卡住了。

在作业更新过程中,管道被卡住了,其中一个作业处于 "未开始 "状态,另一个作业处于 "正在更新 "状态超过10天。管道停止按钮不可见。数据流不允许我......

回答 1 投票 0

我是否有办法使用gson反序列化BigQuery Numeric数据类型?

当Deserialising BigQuery对象到自定义对象时,我面临以下问题。所以我使用BigQuery存储API来获取Bigquery结果。下面是相同的代码。BigQueryIO.read(new ReadTable& ...)

回答 1 投票 0

org.apache.kafka.common.error.TimeoutException.在使用jaas SASL配置认证为Kafka集群获取主题元数据时超时了。使用jaas SASL配置认证为Kafka Cluster获取主题元数据时超时了。

我正在尝试部署一个Google Cloud Dataflow管道,该管道从Kafka集群读取、处理其记录,然后将结果写入BigQuery。然而,我一直遇到以下问题......

回答 1 投票 1

在谷歌云中从API中摄取流数据到Bigquery。

我想从api中以流的方式摄取数据到bigquery。我想最好的选择是使用云数据流将这些数据摄取到bigquery中,但我不知道如何提取数据......。

回答 1 投票 0

Apache Beam有状态的DoFn定期输出所有的KV对。

我试图在Apache Beam中使用有状态的DoFn(使用@ProcessElement和@StateId ValueState元素)来聚合(按键)一个流数据源(通过Scio)。我认为这将是最 ...

回答 1 投票 0

Dataprep在BigQuery中留下了DatasetsTables。

我正在使用 Google Cloud Dataprep 来处理存储在 BigQuery 中的数据。我有一个问题,dataprepdataflow创建一个新的数据集,名称以 "temp_dataset_beam_job_"开头,似乎......

回答 1 投票 1

Apache Beam Combine与GroupByKey的对比

所以,我面临着这个似乎很经典的问题,使用Apache Beam(Flink为引擎),为非绑定的流提取时间框架的topop。假设输入的是 sites+hits tuples: {"aaa.com", 1001}, {"bbb......"。

回答 1 投票 0

云端Datalab权限 - 共享访问时,VM URL上有403个。

我已经成功创建并托管了一个 Cloud Datalab 虚拟机。我可以从我的账户(项目所有者)访问虚拟机的 URL,但我的合作者无法访问 *.blogspot.com URL (HTTP 403) ,除非我给 ...

回答 1 投票 1

CombineFn中的任务没有正确地最终完成Apache光束

我使用Python 3.7 SDK和apache beam 2.17.0做数据流。代码在本地运行,但我从pubsub收集数据。我尝试按键组合,一切都很顺利,直到管道调用"..."。

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.