在 Python 中使用 Apache Beam 在 GCP Dataflow 中创建模板

问题描述 投票:0回答:1

任务: 我需要从本地 Oracle 获取数据并将其转储到 BigQuery 中。

我尝试过的选项 有多种方法可以实现相同的目标。

  1. 我尝试了第一个选项,即使用 Datastream,但由于数据库端的限制。
  2. 我使用 python 脚本从源数据库获取数据,它现在正在工作。但我需要检查另一个选项,即数据流(无服务器的观点) 流程会是这样的 a) 使用Python在GCS存储桶中创建模板 b) 数据流作业将执行该模板 (它将建立连接字符串并将数据转储到 BigQuery 中)

当前的障碍 搜索完内容后,我可以创建一个自定义的 Python 模板,但它的源是平面文件 在 Python(使用 Apache Beam)中需要进行哪些代码更改才能使用 Oracle 作为源实现相同的目标?我们需要仅使用 jdbc 连接选项吗?我已经浏览了一些数据流模板,但没有获得太多信息。

如有任何帮助,我们将不胜感激。

python google-cloud-platform google-bigquery google-cloud-dataflow apache-beam
1个回答
0
投票

请检查 https://beam.apache.org/documentation/io/connectors/ 了解内置 IO。您可以通过 x-lang 使用 Python jdbc io。

© www.soinside.com 2019 - 2024. All rights reserved.