dataflow 相关问题

数据流编程是一种编程范例,其中计算通过有向图建模:节点是指令,数据通过它们之间的连接流动。

Java:到bigquery顺序插入的数据流

我想从一个数据流作业将数据插入2个Bigquery表中。仅当成功将数据插入到第一张表时,才必须执行第二张表插入。谁能帮我实现/ ...

回答 1 投票 0

将文件移动到另一个GCS文件夹并在执行Apache光束管线后执行操作

我创建了一个流式的Apache Beam管道,该管道从GCS文件夹中读取文件并将其插入BigQuery,它工作正常,但是当我停止并运行该作业时,它会重新处理所有文件,因此所有数据...

回答 1 投票 -1

可以在Google的数据流将输入的日期到BigQuery的时间戳

很新的数据流,我一直在寻找天为一个解决我的问题。我需要运行一个事故是由以下格式的CSV文件读取日期:2019010420300033,通过它...

回答 1 投票 0

使用DataFlowRunner当光束/数据流意外错误ProtocolMessageEnum未实现

当运行我的梁管道本地所有的工作如预期,但试图在DataflowRunner运行它时,我突然得到下面的错误。老实说,我甚至不知道从哪里开始评估这个...

回答 1 投票 0

数据流:设置DataflowPipelineDebugOptions

我的管道给OOM错误不断,所以我读了fowllowing答案,尝试设置--dumpHeapOnOOM和--saveHeapDumpsToGcsPath。但似乎这些选项不起作用。我需要改变我的...

回答 1 投票 0

无法通过使用数据流REST API作业参数

我试图调用通过REST API的数据流模板,然而,当在体内被指定的参数,一个INVALID_ARGUMENT引发错误。在除去参数字段,它的工作原理...

回答 1 投票 0

在'dataflowrunner'工作者上安装kubectl

我想在kubernetes上运行的elasticsearch集群中播种数据。我的数据是在Bigquery上,我想使用dataflow(python)来加载数据。 python apache-beam版似乎不...

回答 1 投票 0

工作人员启动后数据流作业没有运行?

有时,即使在工作人员成功启动后,GCP数据流作业也无法在提交后启动。

回答 1 投票 0

在JavaScript中Shopify片段数据转换

是否有可能获得全局对象数据,例如:集合,找到我想要映射/过滤/产生的产品,结果再次呈现为液体模板并注入到代码片段?我可以 ...

回答 1 投票 0

如何从linux控制台创建gcloud数据流

我已经在Google云平台上创建了gcloud数据流,现在我需要从Linux控制台执行此操作。主要问题:它应该怎么样?我如何使用 - gcloud的参数?

回答 1 投票 -1

在PDone之后执行处理

有没有办法利用接收器的结果,即PDone进行进一步处理,例如只有当数据已完全写入GCS或所有行都已写入时才向Pub / Sub发送消息...

回答 1 投票 0

Apache Beam字段分区

我想在特定字段中使用Python在Apache Beam中对PCollection进行分区。我在Python SDK文档中找到了以下代码,用于对学生中的PCollection进行分区...

回答 1 投票 0

如何在Java代码中监视/检查数据/属性流

当我需要捕获从一个API到另一个API的数据流时,我有一个用例。例如,我的代码使用hibernate从数据库读取数据,在数据处理期间,我将一个POJO转换为...

回答 3 投票 8

启动期间Apache NiFi自定义NAR NoClassDefFoundError

我正在尝试在我的NiFi安装中安装自定义NAR控制器服务包,但在启动时会收到此错误。它的行为就像从nifi -...找不到RecordReaderFactory类。

回答 2 投票 1

哪个更好BigqueryIO.write()或bigquery.insertAll()方法的数据流

我正在开发java代码来从GCS读取记录并插入BQ表,这是更好的BigqueryIO.write()或bigquery.insertAll()方法从成本和性能的角度来看

回答 2 投票 1

我在创建PCollectionView时如何解决重复值异常>

我在Apache-Beam管道中设置了一个缓慢变化的查找映射。它不断更新查找映射。对于查找映射中的每个键,我使用...检索全局窗口中的最新值。

回答 1 投票 3

Dataflow中的DirectPipelineRunner可以从本地计算机读取到Google云端存储

我尝试运行Dataflow管道从本地机器(Windows)读取并使用DirectPipelineRunner写入Google云存储。作业失败,错误如下指定...

回答 1 投票 1

数据和流程图

我应该使用哪个图来描述这样的链:输入数据 - >预处理 - >预处理数据 - >算法1->如果结果良好,下一步,如果不是 - 再次执行算法1 ...

回答 1 投票 0

Apache Beam:ReadFromText与ReadAllFromText

我正在运行Apache Beam管道从Google云端存储中读取文本文件,对这些文件执行一些解析并将解析后的数据写入Bigquery。忽略解析和......

回答 1 投票 1

如何在Python 3.x上获取数据流GCP的apache beam

我非常关注GCP和数据流。但是,我想开始测试和部署在GCP上利用数据流的几个流程。根据文档和数据流周围的一切是......

回答 2 投票 4

© www.soinside.com 2019 - 2024. All rights reserved.