google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务，可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型，可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

数据存储区从Dataflow写入同一实体组

我从Dataflow写入数据存储区，pcollection将同一实体组的多个实体写入数据存储区。将它们写入数据存储区会因为相同的实体写入/而慢吗？

google-cloud-platform google-cloud-datastore google-cloud-dataflow entity-group-transactions

回答 1 投票 0

Apache Beam - PCollection中每个键的平均聚合

我有一个PCollection，它由一个ID列和七个值列组成。每个ID有几行。我想计算每个唯一ID的七列的平均值。有办法......

google-cloud-dataflow apache-beam dataflow

回答 1 投票 0

限制光束应用中的一个步骤

我在谷歌数据流上使用python beam，我的管道看起来像这样：从文件中读取图像网址>>下载图像>>过程图像问题是我不能让下载图像步长为......

python google-cloud-dataflow apache-beam dataflow

回答 1 投票 2

Cloud Dataflow流媒体作业可以归零吗？

我正在使用Cloud Dataflow流管道将从Pub / Sub接收的事件插入到BigQuery数据集中。我需要一些工作来保持每项工作简单易维护。我关心的是......

google-cloud-platform google-cloud-dataflow

回答 2 投票 3

Google-cloud-dataflow：无法通过`WriteToBigQuery / BigQuerySink`使用`BigQueryDisposition.WRITE_TRUNCATE'将json数据插入bigquery

给定数据如下{“slot”：“reward”，“result”：1，“rank”：1，“isLandscape”：false，“p_type”：“main”，“level”：1276，“type” ：“ba”，“seqNum”：42544} {“slot”：“reward_dlg”，“result”：1，“rank”：1，“isLandscape”：...

google-bigquery google-cloud-dataflow apache-beam

回答 1 投票 2

Beam.BigQueryIO：numFileShards是什么？

当我想将未绑定的输入从Kafka加载到BigQuery时，我遇到了.withMethod（）选项。通过使用Method.FILE_LOAD，我还必须指定触发频率以及非零...

google-cloud-dataflow apache-beam

回答 1 投票 0

Google-cloud-dataflow：为什么管道使用DirectRunner运行两次？

给定数据如下{“slot”：“reward”，“result”：1，“rank”：1，“isLandscape”：false，“p_type”：“main”，“level”：1276，“type” ：“ba”，“seqNum”：42544} {“slot”：“reward_dlg”，“result”：1，“rank”：1，“isLandscape”：...

google-cloud-dataflow apache-beam

回答 1 投票 0

Beam GCSFileSystem / GcsBufferedWriter性能

我正在尝试从http下载大文件，并在数据流上使用apache-beam python sdk（2.6.0）将这些文件上传到gcs。来自apache_beam.io.gcp.gcsfilesystem导入GCSFileSystem ...

google-cloud-dataflow apache-beam

回答 1 投票 0

数据流：在模板中使用运行时参数

尝试为数据流作业创建模板。有没有办法生成带有运行时参数的模板？直到现在，无论在创建模板时使用了什么参数，但是当我......

google-cloud-dataflow

回答 2 投票 1

使用Apache Beam（并行）查找组件？

给出以下输入：（E1，E2），（E2，E3）和（E3，E4）。是否可以使用Apache Beam框架输出（E1，E2，E3，E4）？我的目标是输出给出的所有连接组件......

python graph google-cloud-platform google-cloud-dataflow apache-beam

回答 1 投票 0

数据流作业失败

数据流作业失败，出现以下异常，并且正在传递参数staging，temp和output GCS bucket location。 Java代码：final String [] used = Arrays.copyOf（args，args.length + 1）;用过的[...

google-cloud-platform google-cloud-dataflow

回答 1 投票 1

如何调试数据流模板udf输出

该作业现在输出任何成功的行。所有InvokeUDF阶段都输出到ProcessedUDF.out0而不是ProccessedUDF.out1。请参阅使用模板时如何调试此问题？ ...

google-cloud-dataflow

回答 1 投票 0

在groupbykey（）之后，Apache beam python管道不会继续

我在管道中执行GroupByKey，键是字符串，值是字典。我想将它们分组并对它们进行处理。如果我删除GroupByKey，我能够达到下一步，但不是......

python-2.7 google-cloud-platform google-cloud-dataflow apache-beam

回答 1 投票 0

Dataflow GroupByKey和CoGroupByKey非常慢

Dataflow适用于具有简单转换的流水线，但是当我们进行复杂的转换（如连接）时，性能非常糟糕。

google-cloud-platform google-cloud-dataflow

回答 1 投票 0

如何在google cloud dataflow / apache beam中运行多个WriteToBigQuery并行？

我希望将事件与一堆多个事件分开，给定数据{“type”：“A”，“k1”：“v1”} {“type”：“B”，“k2”：“v2”} {“键入“：”C“，”k3“：”v3“}我想分开类型：事件到表A ...

python google-bigquery google-cloud-dataflow apache-beam

回答 1 投票 0

Gcloud数据流步执行时间

我正在使用gcloud数据流作业，并希望我的数据流中的所有步骤（包括嵌套转换）都有单独的执行时间。我正在使用流数据流，管道目前看起来像......

google-cloud-dataflow

回答 1 投票 0

数据流作业完成后如何从云存储中删除文件

在GCP中，我有一个数据流作业，可以将文件从云存储复制到大查询。我想在成功插入大查询后删除这些文件。有人可以......

google-cloud-platform google-cloud-storage google-cloud-dataflow

回答 1 投票 0

使用PubsubIO的Java OutOfMemoryError

我在Java中编写一个简单的Dataflow管道：PubsubIO - > ConvertToTableRowDoFn - > BigQueryIO管道正在运行 - 数据按预期到达BigQuery - 但我看到了OutOfMemoryErrors ...

google-cloud-dataflow google-cloud-pubsub

回答 1 投票 1

BigQueryIO.read（）。fromQuery性能缓慢

我注意到的一件事是，BigQueryIO.read（）。fromQuery（）的性能比Apache Beam中的BigQueryIO.read（）。from（）的性能要慢得多。为什么会这样？并且是 ...

google-bigquery google-cloud-dataflow apache-beam

回答 1 投票 5

使用连接从BigQuery读取批量数据

我有一个用例，我必须通过在20个不同的BQ表上应用左连接来读取BigQuery中的选定数据，对该数据应用转换，然后最终转储到最终的BQ表中。 ...

google-bigquery google-cloud-dataflow apache-beam apache-beam-io

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.