dataflow 相关问题

数据流编程是一种编程范例,其中计算通过有向图建模:节点是指令,数据通过它们之间的连接流动。

收集经验。映射数据流 ADF 聚合转换中具有不同值的函数

我想使用collect(column1)函数来收集Agg中按column2分组的所有行值。转型。但由于该column1有重复的值,我在返回的arr中得到了重复的值...

回答 3 投票 0

获取匿名调用者在数据流上运行 wordcount 时没有 storage.objects.create 访问错误

我正在使用python运行apache beam包中wordcount模块的数据流快速启动。我能够在我的机器上本地运行它。但是,当我尝试通过指定

回答 2 投票 0

对 petgraph 中两个节点的可变访问

我正在使用 petgraph 箱来实现数据流图。我想将数据从边缘源节点复制到其目标节点。为此,我需要一个对目标节点的可变引用和一个

回答 1 投票 0

MongoIO Apache Beam GCP 数据流与 Mongo Upsert 管道示例

我正在寻找一个示例来实现 Apache Beam GCP 数据流管道,以使用 upsert 操作更新 Mongo DB 中的数据,即如果值存在,则应该更新该值,如果不存在,则应该更新该值

回答 2 投票 0

在数据流 2.x 中将 TableRow 转换为 JSON 格式字符串的最简单方法?

缺少编写自己的函数来执行此操作,将数据流 2.x 管道内的 TableRow 对象转换为 JSON 格式的字符串的最简单方法是什么? 我认为下面的代码可以工作,但是...

回答 3 投票 0

在数据流作业中安装Python包

在我的数据流(beam)工作流程中,我使用Python中的日期时间包(在gcp上使用jupyter笔记本)。当我使用 pip 安装缺少的软件包时,一切正常。 现在我想运行我的

回答 1 投票 0

尝试在 GCE 上访问 BigQuery 时出现“访问被拒绝”

我开发并构建了一个 jar 文件,用于处理从两个 BigQuery 表读取的数据,然后将其写入另一个 BigQuery 表。 (共有三个 GCP 项目,每个项目都有自己的 BigQuery 表。) 雅...

回答 2 投票 0

使用数据流Kafka到bigquery模板时出错

我正在使用数据流kafka到bigquery模板。启动数据流作业后,它会在队列中停留一段时间,然后失败并出现以下错误: 启动器容器中发生错误:Template lau...

回答 3 投票 0

安装后Apache NIFI登录问题

我是 Apache NIFI 的新手。我已经在本地 Windows 计算机上安装了 Apache NIFI。现在,它要求用户名和密码登录。您知道我在哪里可以找到或设置密码吗?我没有...

回答 7 投票 0

如果排队的项目数小于BatchSize,如何在超时后自动调用TriggerBatch?

使用 Dataflow CTP(在 TPL 中) 如果超时后当前排队或推迟的项目数量小于 BatchSize,是否有办法自动调用 BatchBlock.TriggerBatch? 还有

回答 5 投票 0

使用 Apache Beam 和 Python 将带有 ordering_key 的消息写入 Google PubSub

我正在尝试使用 Apache Beam (https://cloud.google.com/pubsub/docs/publisher) 将带有 ordering_key 的 Google PubSub 消息写入主题。虽然带有 ordering_key 的 Google Pubsub 是测试版功能...

回答 1 投票 0

当集合大小为0时,如何防止数据流管道中写入空文件?

我有一个数据流管道,我正在解析一个文件,如果我得到任何不正确的记录,那么我会将其写入GCS存储桶,但是当输入文件数据中没有错误时,TextIO仍然会写入e.. .

回答 2 投票 0

ApacheBeam 数据流作业的类型错误:“无法确定地编码<TableReference>,提供类型提示”

我可以使用 Direct Runner 在本地毫无问题地运行我的管道,但是当我部署到 Dataflow 时,出现以下错误: “来自工作人员的错误消息:通用::未知:追溯(大多数......

回答 2 投票 0

GCD中奇怪的内存使用图表

我在Google Cloud Dataflow中执行了一个作业,现在我在StackDriver上看到了结果。我不明白这个内存图表。我只用了1个和3个worker之后,但是这个图表的比例是顺序的...。

回答 1 投票 0

如何在Nifi的虚拟环境中运行一个有依赖关系的python脚本?

在Nifi中是否有办法运行一个python脚本,这个脚本的模块是从不同的文件夹中导入的,要求在pipfile中指定,并且有参数要传递?总之,如何执行一个python ...

回答 1 投票 0

如何在扁平化嵌套字段后,从一个bigquery表向另一个表进行流式插入数据?

我有一个中间表,在它的列中存放send_timestamp和JSON数据。我使用dataflow从pubsub插入数据到这个中间表。现在我的用例是验证...

回答 1 投票 0

使用Dataflow & Java删除Firestore集合。

在Java中,我有一个函数,它是从firestore集合中读取数据,并以固定的批量大小删除它们。我想从数据流中执行这个函数,但是当我在.apply中添加这个函数时,我得到了......。

回答 1 投票 0

Apache beam在Dataflow中得到与生成器对象不可下标相关的错误。

我试图在数据流中创建我的第一条流水线,当我使用交互式光束运行器执行时,我有相同的代码运行,但在数据流中,我得到了所有类型的错误,这并没有使很多......

回答 1 投票 0

通过BufferBlock的反压不工作。(C# TPL Dataflow)

典型的情况是:"生产者快,消费者慢,需要让生产者慢下来。生产者快,消费者慢,需要让生产者慢下来。样例代码,没有像我预期的那样工作(下面解释)。/ 我以为这个区块会像BlockingQueue一样,... ...

回答 1 投票 0

通过BufferBlock的反压不工作。(C# TPL Dataflow)

典型的情况是:"生产者快,消费者慢,需要让生产者慢下来。生产者快,消费者慢,需要让生产者慢下来。样例代码没有像我预期的那样工作(下面解释)。/ 我以为这个区块会像... ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.