google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

terraform:数据流 pubsubtopic 到 bigquery

我想在 terraform 中为 bigquery 作业创建 pubsub 主题。数据流有这个模板。我没有找到 terraform 的例子。您能提供任何示例 terraform 代码吗?

回答 2 投票 0

数据流管道运行错误:SDK 断开连接

我正在尝试使用 DataflowRunner 和 --no_use_public_ips 运行测试数据流管道。 它正在从 Bigquery 读取一个小表并将 csv 写入存储中,所有这些都在同一个项目中。 python3 ./数据...

回答 1 投票 0

您可以屏蔽 GCP - Spanner 中的机密数据吗?

是否可以屏蔽其中数据为置信度的扳手列之一中的数据项。 E.G 扳手有 3 列姓名、出生日期、地址。 有什么方法可以在跨度中屏蔽/加密 DOB...

回答 1 投票 0

使用 GCP Dataflow 在 Airflow 中进行 BeamRunJavaPipelineOperator 设置(执行非模板化作业!)

我正在努力让我的 BeamRunJavaPipeline() 在 Airflow 中工作以在 GCP 上运行数据流作业。 我已经在 Google Cloud Storage 中拥有了 jar 文件。 我基本上是在寻找指针和实用的

回答 1 投票 0

尝试让 Airflow 中的 BeamRunJavaPipelineOperator 使用 GCP Dataflow 工作(执行非模板化工作!)

我正在努力让我的 BeamRunJavaPipeline() 在 Airflow 中工作以在 GCP 上运行数据流作业。 我已经在 Google Cloud Storage 中拥有了 jar 文件。 我基本上是在寻找指针和实用的

回答 1 投票 0

Google Cloud Dataflow BigQuery 到 Bigtable 传输 - 限制写入速度?

我有许多数据流模板可将数据从 BigQuery 复制到 Bigtable 表。 其中最大的数据约为 900 万行、22GB。 没有复杂的突变,它只是一个co...

回答 1 投票 0

检查特定列中的所有值是否具有精确值,以使用另一个值更新 dataverse 单元格

我有 3 个 dataverse 表、项目、任务和子任务,其架构如下 任务有一个项目查找列,子任务有一个任务查找列。 每个表的 ID 为...

回答 1 投票 0

Google-Cloud-Dataflow:无法从 ARTIFACT REGISTRY 中提取图像

当我尝试使用dataflow运行flex模板时,作业日志报错。 docker:来自守护进程的错误响应:获取 XXXXXXXXXX 被拒绝:权限“artifactregistry.repositories。

回答 2 投票 0

如何将谷歌数据流字数输出保存到大查询表中?

我正在执行数据流字数统计实验,但结束后我想将输出存储到谷歌大查询而不是云存储中。 实验——https://cloud.google.com/dataflow/docs/sa...

回答 1 投票 0

更新 Google 表格源中的数据时,Google Looker 不显示值

我会澄清这个问题。我的谷歌表从 api 接收数据(参见屏幕截图)。每次更新后,信息都会更新并添加新列。结果,其他列被移入...

回答 1 投票 0

通过 GCP 数据流和 GCP 功能处理文件

我目前正在使用以下代码来处理放置在输入存储桶中的 csv 文件。我使用数据流处理它们,但我在数据流作业中遇到错误。 我已经列出了代码和错误...

回答 1 投票 0

带有 STORAGE_API_WRITE 的 BigQueryIO 批处理管道不会截断表

我有一个 BATCH 管道,需要写入 BigQuery 来截断表。我正在使用方法 STORAGE_API_WRITE 并且该表不会被截断,而是会附加值。 .申请(

回答 1 投票 0

无法从 Dataflow 将数据插入 BigQuery(使用 Python SDK)

当我尝试从数据流写入 BigQuery 时,我试图找出 BigQuery 所期望的正确架构。 我采用了 Apache Beam 流媒体 pubsub-to-pubsub 示例,只是......

回答 1 投票 0

Apache Beam Streaming 写入/读取 BigQuery

我正在运行一个流管道,我尝试在 BigQuery 中写入,然后从中读取。在阅读之前,有没有办法确保我刚刚写的内容存在? 我正在使用Python:

回答 1 投票 0

如何在管道 ETL - DataFrame -DataFlow - BigQuery 中执行两项任务

这是我在 Google Cloud 中用 BigQuery 编写的代码: 导入 apache_beam 作为光束 从 apache_beam.io.gcp.gcsio 导入 GcsIO 从 apache_beam.options.pipeline_options 导入 PipelineOptions 来自

回答 1 投票 0

错误:ValueError:未知的 url 类型:“g”。无法通过 Cloud Composer 触发的 Dataflow 脚本连接到存储在 GCS 存储桶中的 jdbc 驱动程序

我无法通过 Cloud Composer 触发的 Dataflow 脚本连接到存储在 GCS 存储桶中的 jdbc 驱动程序(jar 文件)。我有一个作曲家脚本和一个数据流脚本。 Composer 脚本:触发

回答 1 投票 0

是否有 Apache Beam 功能来收集固定数量的元素?

我对 Apache Beam 和 Dataflow 相当陌生,我想从具有 n 个元素的 PCollection 中收集或“批处理”k 个元素。在这种情况下,n 不是固定数字并且...

回答 1 投票 0

Dataflow:在流作业中刷新有界 PCollection

我正在运行一个流数据流作业,从无界的 PCollection 接收事件。 我想将无界 PCollection 与有界 PCollection 结合起来。 有界 PCollection 的内容是

回答 1 投票 0

Google Dataflow:在流式管道中的 BigQuery 中插入 + 更新

主要对象 一个 python 流管道,我在其中读取来自 pub/sub 的输入。 分析输入后,有两个选项可用: 如果 x=1 -> 插入 如果 x=2 -> 更新 测试 这可不...

回答 2 投票 0

如何使用 Flex 模板部署多语言 Google Dataflow 管道?

我有一个使用 Java 外部转换的 Google Dataflow Batch 管道。 当我使用 Java -jar 启动扩展服务并使用 Dataflow Runne 启动管道时,它运行良好...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.