google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

数据存储区从Dataflow写入同一实体组

我从Dataflow写入数据存储区,pcollection将同一实体组的多个实体写入数据存储区。将它们写入数据存储区会因为相同的实体写入/而慢吗?

回答 1 投票 0

Apache Beam - PCollection中每个键的平均聚合

我有一个PCollection,它由一个ID列和七个值列组成。每个ID有几行。我想计算每个唯一ID的七列的平均值。有办法......

回答 1 投票 0

限制光束应用中的一个步骤

我在谷歌数据流上使用python beam,我的管道看起来像这样:从文件中读取图像网址>>下载图像>>过程图像问题是我不能让下载图像步长为......

回答 1 投票 2

Cloud Dataflow流媒体作业可以归零吗?

我正在使用Cloud Dataflow流管道将从Pub / Sub接收的事件插入到BigQuery数据集中。我需要一些工作来保持每项工作简单易维护。我关心的是......

回答 2 投票 3

Google-cloud-dataflow:无法通过`WriteToBigQuery / BigQuerySink`使用`BigQueryDisposition.WRITE_TRUNCATE'将json数据插入bigquery

给定数据如下{“slot”:“reward”,“result”:1,“rank”:1,“isLandscape”:false,“p_type”:“main”,“level”:1276,“type” :“ba”,“seqNum”:42544} {“slot”:“reward_dlg”,“result”:1,“rank”:1,“isLandscape”:...

回答 1 投票 2

Beam.BigQueryIO:numFileShards是什么?

当我想将未绑定的输入从Kafka加载到BigQuery时,我遇到了.withMethod()选项。通过使用Method.FILE_LOAD,我还必须指定触发频率以及非零...

回答 1 投票 0

Google-cloud-dataflow:为什么管道使用DirectRunner运行两次?

给定数据如下{“slot”:“reward”,“result”:1,“rank”:1,“isLandscape”:false,“p_type”:“main”,“level”:1276,“type” :“ba”,“seqNum”:42544} {“slot”:“reward_dlg”,“result”:1,“rank”:1,“isLandscape”:...

回答 1 投票 0

Beam GCSFileSystem / GcsBufferedWriter性能

我正在尝试从http下载大文件,并在数据流上使用apache-beam python sdk(2.6.0)将这些文件上传到gcs。来自apache_beam.io.gcp.gcsfilesystem导入GCSFileSystem ...

回答 1 投票 0

数据流:在模板中使用运行时参数

尝试为数据流作业创建模板。有没有办法生成带有运行时参数的模板?直到现在,无论在创建模板时使用了什么参数,但是当我......

回答 2 投票 1

使用Apache Beam(并行)查找组件?

给出以下输入:(E1,E2),(E2,E3)和(E3,E4)。是否可以使用Apache Beam框架输出(E1,E2,E3,E4)?我的目标是输出给出的所有连接组件......

回答 1 投票 0

数据流作业失败

数据流作业失败,出现以下异常,并且正在传递参数staging,temp和output GCS bucket location。 Java代码:final String [] used = Arrays.copyOf(args,args.length + 1);用过的[...

回答 1 投票 1

如何调试数据流模板udf输出

该作业现在输出任何成功的行。所有InvokeUDF阶段都输出到ProcessedUDF.out0而不是ProccessedUDF.out1。请参阅使用模板时如何调试此问题? ...

回答 1 投票 0

在groupbykey()之后,Apache beam python管道不会继续

我在管道中执行GroupByKey,键是字符串,值是字典。我想将它们分组并对它们进行处理。如果我删除GroupByKey,我能够达到下一步,但不是......

回答 1 投票 0

Dataflow GroupByKey和CoGroupByKey非常慢

Dataflow适用于具有简单转换的流水线,但是当我们进行复杂的转换(如连接)时,性能非常糟糕。

回答 1 投票 0

如何在google cloud dataflow / apache beam中运行多个WriteToBigQuery并行?

我希望将事件与一堆多个事件分开,给定数据{“type”:“A”,“k1”:“v1”} {“type”:“B”,“k2”:“v2”} {“键入“:”C“,”k3“:”v3“}我想分开类型:事件到表A ...

回答 1 投票 0

Gcloud数据流步执行时间

我正在使用gcloud数据流作业,并希望我的数据流中的所有步骤(包括嵌套转换)都有单独的执行时间。我正在使用流数据流,管道目前看起来像......

回答 1 投票 0

数据流作业完成后如何从云存储中删除文件

在GCP中,我有一个数据流作业,可以将文件从云存储复制到大查询。我想在成功插入大查询后删除这些文件。有人可以......

回答 1 投票 0

使用PubsubIO的Java OutOfMemoryError

我在Java中编写一个简单的Dataflow管道:PubsubIO - > ConvertToTableRowDoFn - > BigQueryIO管道正在运行 - 数据按预期到达BigQuery - 但我看到了OutOfMemoryErrors ...

回答 1 投票 1

BigQueryIO.read()。fromQuery性能缓慢

我注意到的一件事是,BigQueryIO.read()。fromQuery()的性能比Apache Beam中的BigQueryIO.read()。from()的性能要慢得多。为什么会这样?并且是 ...

回答 1 投票 5

使用连接从BigQuery读取批量数据

我有一个用例,我必须通过在20个不同的BQ表上应用左连接来读取BigQuery中的选定数据,对该数据应用转换,然后最终转储到最终的BQ表中。 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.