apache-beam 相关问题

Apache Beam是用于批处理和流处理的统一SDK。它允许使用特定于Beam的DSL指定大规模数据处理工作流程。 Beam工作流可以在不同的运行时执行，如Apache Flink，Apache Spark或Google Cloud Dataflow（云服务）。

应用此示例或此示例来构建我的程序，每次我尝试插入Big Query时，都会出现此错误：OverflowError：日期值超出范围[运行'Format'时] My Beam Pipeline是这样的：...

python google-cloud-dataflow apache-beam

回答 1 投票 1

我正在尝试通过PipelineOptions.setUserAgent自定义用于不同GCP调用的用户代理。但是，似乎总是回到Apache_Beam_SDK_for_Java / 2.6.0。看着......

google-cloud-dataflow apache-beam

回答 1 投票 1

我正在使用Apache Beam来设置一个包含两个主要步骤的管道：使用Beam Transform转换数据将转换后的数据加载到BigQuery管道设置如下所示：...

java google-cloud-platform apache-beam

回答 1 投票 0

我在Apache Beam中编写了一个非常简单的管道，如下所示，在汇合处从我的kafka集群读取数据如下：Pipeline pipeline = Pipeline.create（options）;地图

java apache-kafka apache-beam

回答 1 投票 0

动态工作重新平衡将最佳地将工作分配给工作人员，其中融合将使执行图崩溃，从而图表将更小，意味着更少的工作人员参与。动态工作如何......

google-cloud-dataflow apache-beam

回答 2 投票 0

我目前正在开发一个Dataflow管道，它使用Apache Beam Java SDK 2.8.0从Pub / Sub读取流数据。该管道只是Google的PubsubToText.java模板。 https：//开头的github ....

java google-cloud-dataflow apache-beam google-cloud-pubsub

回答 1 投票 0

我有一个PCollection [str]，我想生成随机对。来自Apache Spark，我的策略是：复制原始PCollection随机随机播放它与原始PCollection拉链...

google-cloud-dataflow apache-beam

回答 2 投票 0