apache-beam 相关问题

Apache Beam是用于批处理和流处理的统一SDK。它允许使用特定于Beam的DSL指定大规模数据处理工作流程。 Beam工作流可以在不同的运行时执行,如Apache Flink,Apache Spark或Google Cloud Dataflow(云服务)。

在Apache Beam (2.5.0)中窗口化后的GroupByKey不会产生输出。

我使用的是固定窗口,我应用于一个PCollection,以便在一个非绑定的源上进行GroupBy,如下所示。PCollection >> grouppedBy = ...

回答 1 投票 0

通过Apache Beam从Hive读取数据

请你建议如何通过Apache beam读取Hive的内容,并将其保存为PCollection的Row格式?

回答 1 投票 0

Apache Beam Python SDK - 不准确的会话窗口时间间隔

我试图使用Apache Beam Python SDK以60分钟的会话时间间隔处理数据。但是实际的会话间隔并不准确,比如3:00:00或1:01:00或1:50:00,当我运行我的 ...

回答 1 投票 0

数据流僵尸作业--作业更新时卡住了。

在作业更新过程中,管道被卡住了,其中一个作业处于 "未开始 "状态,另一个作业处于 "正在更新 "状态超过10天。管道停止按钮不可见。数据流不允许我......

回答 1 投票 0

org.apache.kafka.common.error.TimeoutException.在使用jaas SASL配置认证为Kafka集群获取主题元数据时超时了。使用jaas SASL配置认证为Kafka Cluster获取主题元数据时超时了。

我正在尝试部署一个Google Cloud Dataflow管道,该管道从Kafka集群读取、处理其记录,然后将结果写入BigQuery。然而,我一直遇到以下问题......

回答 1 投票 1

Apache Beam有状态的DoFn定期输出所有的KV对。

我试图在Apache Beam中使用有状态的DoFn(使用@ProcessElement和@StateId ValueState元素)来聚合(按键)一个流数据源(通过Scio)。我认为这将是最 ...

回答 1 投票 0

Apache Beam Combine与GroupByKey的对比

所以,我面临着这个似乎很经典的问题,使用Apache Beam(Flink为引擎),为非绑定的流提取时间框架的topop。假设输入的是 sites+hits tuples: {"aaa.com", 1001}, {"bbb......"。

回答 1 投票 0

CombineFn中的任务没有正确地最终完成Apache光束

我使用Python 3.7 SDK和apache beam 2.17.0做数据流。代码在本地运行,但我从pubsub收集数据。我尝试按键组合,一切都很顺利,直到管道调用"..."。

回答 1 投票 1

从Spring控制器执行Google Cloud Dataflow管道

我将如何使用Spring执行Apache Beam管道到Google Cloud Dataflow?这个问题类似于在Spring Boot项目中运行Apache Beam pipeline到Google Data Flow,但是...

回答 1 投票 0

Apache beam在Dataflow中得到与生成器对象不可下标相关的错误。

我试图在数据流中创建我的第一条流水线,当我使用交互式光束运行器执行时,我有相同的代码运行,但在数据流中,我得到了所有类型的错误,这并没有使很多......

回答 1 投票 0

POutput不能转换为WriteResult。

我试图按照KafkaToBigQuery的DataflowTemplate来处理BigQuery在我代码中的错误。PCollection convertedTableRows = pipline .apply("ReadFromKafka", ...

回答 1 投票 0

在apache beam中使用XmlIo读取xml文件。

问题陈述:我试图在beam中使用direct runner读取和打印xml文件的内容,以下是代码片段: public class BookStore{ public static void ....

回答 1 投票 0

在Python的Apache Beam中使用OrFinally定义自定义触发器的正确语法?

我试图为一个滑动窗口定义一个自定义的触发器,这个触发器可以重复触发每一个元素,但最后也可以在水印结束时触发。我看了周围的文档,对于 ...

回答 1 投票 0

如何在Beam中渲染一个管道图?

使用Apache Beam Python SDK 2.9.0版本,是否可以得到一个类似Google的数据流的可渲染的管道图表示,而不是运行它?我在组装时遇到了困难...

回答 1 投票 2

Apache beam splittable DoFn没有将工作分散到Dataflow上的多个工作者。

我正在学习使用可拆分的DoFn,我希望我的工作能分配给500个工人,但Dataflow只用1或2个工人运行。我希望将我的工作分配给500个工人,但Dataflow只用1或2个工人运行它,我是否理解或实现可分割DoFn不正确?我对可拆分DoFn的理解或实现是否有误? ...

回答 1 投票 0

一个ParDo操作应该有多小,才能保证一个波束作业的良好性能和伸缩性?

在我的数据流管道中,有多个小型过滤器,我想应用在数据流上(ParDo函数)。鉴于过滤器操作不是cpu密集型的。为了性能和扩展,...

回答 1 投票 0

阿帕奇光束的独特元素数

我有一个Apache Beam作业,从PubSub中输入数据,然后加载到BigQuery中,我将PubSub消息转化为带有字段id、name、count的pojo,count意味着非唯一元素的计数......。

回答 1 投票 0

如何在beam SQL中从输入数据中选择一组字段作为重复字段数组?

問題說明:我有一個包含以下字段的輸入pcollection。{ firstname_1, lastname_1, dob, firstname_2, lastname_2, firstname_3, lastname_3, } 然后 ....

回答 1 投票 0

使用GroupByKey,让每个键都在自己的窗口中。

我有一个无边界的数据源(Kafka流)作为我的beam job的输入。数据的特点。它们是由元素组成的组(组的大小在5-20个元素之间)。每个组的键...

回答 1 投票 0

Apache Beam将BigQuery表和模式作为params写入。

我正在使用Python SDK for Apache Beam。datatable和schema的值都在PCollection中。这是我从PubSub中读到的信息:{"DEVICE": "rms005_m1", "DATESTAMP": "2020-05-29 20:..."。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.