apache-beam 相关问题

Apache Beam是用于批处理和流处理的统一SDK。它允许使用特定于Beam的DSL指定大规模数据处理工作流程。 Beam工作流可以在不同的运行时执行,如Apache Flink,Apache Spark或Google Cloud Dataflow(云服务)。

输入文件未从pd.read_csv读取

我正在尝试使用pandas从apache beam读取存储在google存储中的文件,但是得到错误def Panda_a(self):import pandas as pd data ='gs://tegclorox/Input/merge1.csv'df1 = ...

回答 1 投票 0

是否违反了Apache Beam Programming Model来调用API?

当使用Apache Beam来丰富数据时,为每个数据项进行API调用是不对的(我是Apache Beam的新手)

回答 2 投票 2

Apache Beam - 数据流 - 序列化和状态共享

在我的一个pipelin的DoFn中,我正在下载需要由另一个DoFn处理的二进制文件。现在一旦下载了二进制文件,我也将它存储在GCS中并输出...的位置

回答 1 投票 0

如何在apache梁中使用熊猫?

如何在Apache beam中实现Pandas?我无法在多列上执行左连接,而Pcollections不支持sql查询。甚至Apache Beam文档都没有正确构图。我检查了 ...

回答 2 投票 3

带有Pub / Sub源的Apache Beam Python SDK在运行时停留

我正在使用Python SDK在Apache Beam中编写一个程序,从Pub / Sub读取JSON文件的内容,并对接收到的字符串进行一些处理。这是我拉动程序中的一部分......

回答 1 投票 0

Apache Beam Dataflow作业在本地执行什么操作?

我遇到了Apache Beam Python SDK定义的Dataflow的一些问题。如果我单步执行我的代码,它会到达pipeline.run()步骤,我认为这意味着执行图表已成功...

回答 1 投票 1

由于未知原因,数据流作业的水印滞后很多

我们正在运行一个使用Kafka的Dataflow工作流程,并使用apache beam AvroIO write API将snappy avro文件写入gcs。我们最多配置了13名工人,应该处理50k ...

回答 1 投票 0

TextIO.read()。watchForNewFiles()阻止写入BigQuery

我正在尝试创建一个管道,等待GCS文件夹中的新csv文件来处理它们并将输出写入BigQuery。我编写了以下代码:public static void main(String [] args){...

回答 2 投票 0

数据流:我可以使用批处理作业连续写/流写入BigQuery吗?

我似乎无法找到任何关于此的文档。我有一个apache-beam管道,它接收一些信息,将其格式化为TableRows,然后写入BigQuery。 [+]问题:行是......

回答 2 投票 1

输出具有空值的TableRow时出现NullPointerException

我正在尝试构建一个TableRow对象,最终将其写入BigQuery表,但如果我在行中包含空值,则会出现NullPointerException。这是完整的堆栈跟踪:例外...

回答 3 投票 0

Python Apache Beam:日期值超出范围

应用此示例或此示例来构建我的程序,每次我尝试插入Big Query时,都会出现此错误:OverflowError:日期值超出范围[运行'Format'时] My Beam Pipeline是这样的:...

回答 1 投票 1

使用Dataflow指定自定义用户代理

我正在尝试通过PipelineOptions.setUserAgent自定义用于不同GCP调用的用户代理。但是,似乎总是回到Apache_Beam_SDK_for_Java / 2.6.0。看着......

回答 1 投票 1

Apache Beam - 跳过管道步骤

我正在使用Apache Beam来设置一个包含两个主要步骤的管道:使用Beam Transform转换数据将转换后的数据加载到BigQuery管道设置如下所示:...

回答 1 投票 0

无法通过KafkaIO在kafka读取梁

我在Apache Beam中编写了一个非常简单的管道,如下所示,在汇合处从我的kafka集群读取数据如下:Pipeline pipeline = Pipeline.create(options);地图

回答 1 投票 0

数据流:动态工作重新平衡与融合

动态工作重新平衡将最佳地将工作分配给工作人员,其中融合将使执行图崩溃,从而图表将更小,意味着更少的工作人员参与。动态工作如何......

回答 2 投票 0

DirectRunner不会按照我在Beam Java SDK中使用FixedWindows指定的方式读取Pub / Sub

我目前正在开发一个Dataflow管道,它使用Apache Beam Java SDK 2.8.0从Pub / Sub读取流数据。该管道只是Google的PubsubToText.java模板。 https://开头的github ....

回答 1 投票 0

是否可以在两个PCollections的apache梁上进行拉链操作?

我有一个PCollection [str],我想生成随机对。来自Apache Spark,我的策略是:复制原始PCollection随机随机播放它与原始PCollection拉链...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.