我想创建一些通用管道,我可以在其中传递表名或自定义 SQL 作为输入,并将所需数据从 BigQuery 加载到 SQL Server。该管道应处理每日增量数据负载和初始历史负载(约 100 GB)。
我正在尝试通过 Apache Beam(数据流)创建它,我在编码方面面临一些挑战,但在深入研究数据流开发之前,我想了解从 BigQuery 中提取数据并将其加载到任何数据库中的最佳方法 Oracle, SQL Server、Postgres 等?除了数据流之外,还有什么方法是最佳优化的方法吗?
您可以尝试 Dataflow 模板 (https://cloud.google.com/dataflow/docs/guides/templates/provided-templates),它为 BigQuery 提供了一些预定义的 Beam 管道作为源。
• 在 SQL 中为每个 parentID 创建一串 childID,同时从聚合中排除当前 childID 的最佳方法是什么
• Airbite 将 SQL Server 2017 集成到 Bigquery 时的不同时区
• 使用 ServiceAccount 创建 BigQuery 的最新方法是什么?
• C# 从 SQL Server 将 200k 记录加载到字典中的最快方法
• 如何从 SQL 中的字符串中提取数字并从单个查询中的其他列中减去?
• 将数据从 pyspark 加载到 bigquery 表中,但出现架构不兼容错误
• BigQuery 是否允许使用 SQL `with` 子句进行多表连接?
• 我无法在从 BigQuery 提取的 Google 电子表格中添加行或列?
• 无法加载身份验证 DLL mssql-jdbc_auth-10.2.1.x64 (For MAC)
• SQL Server 2019 从数据库中删除用户导致外部库文件夹错误
• 如何修复 bigquery 中动态 sql 的变量声明错误?
• 在 JavaScript 中从 SQL Server 获取日期
• Sqlcmd:错误:Microsoft SQL Server Native Client 10.0:通信链接失败
• 将 SQL Server 2008 数据库附加到 SQL Server 2019
• SQL (BigQuery) timediff 在 2 个时间戳之间以分钟为单位,不包括周末和仅从上午 5 点到下午 6 点