google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

Azure 数据工厂数据流“无效伪列”

我有一个数据流,其中添加了一个整数参数 pMovType。在数据流源中,我尝试获取它,但不能。当我尝试以 $pMovType 形式使用它时,它只会给出“无效的伪列”。 ...

回答 1 投票 0

如何在管道的下一步中从 DB I/O 连接器访问 PCollection

我使用Apache-beam编写了一个小型管道。它使用beam-postgres作为输入连接器从数据库表创建PCollection。 代码如下所示 - 导入 apache_beam 作为光束 来自

回答 2 投票 0

如何使用 Google 提供的数据流模板更改默认网络

我正在尝试使用 Google 提供的模板 PubSub 到 BigQuery 设置数据流作业。但是我在启动时收到此错误: 消息:资源“projects/my-project/global/networks/d...

回答 3 投票 0

无法传入Dataflow的Requirements.txt

我一直在尝试在 Google Cloud Dataflow 上部署管道。到目前为止,这是一个相当大的挑战。 我面临导入问题,因为我意识到 ParDo 函数需要requirements.txt...

回答 2 投票 0

使用 Beam Dataflow 流式传输 (python) 从 pub/sub 读取并写入 Firestore(本机)

我正在使用 Dataflow 滑动窗口从 pub/sub 读取内容,在创建实体并写入 Firestore 本机之前应用一些转换。我发现 Beam 不支持本机 Firestore...

回答 1 投票 0

如何在下一步中访问先前 Ptransform 的输出

我必须在Python中创建一个Apache数据束,它必须执行以下功能- 从数据库表中读取符合特定条件的条目 为该记录调用第一个 REST API 在响应...

回答 1 投票 0

为什么 AvroCoder 不是确定性的?

AvroCoder.isDeterministic 返回 false。 为什么 AvroCoder 不是确定性的? Avro 记录不会总是被编码到相同的字节流中吗? 由于 Avro Coder 不是确定性的 Avro

回答 3 投票 0

如何使数据流自动缩放更快?

我在数据流上有一个简单的并行光束Python作业。它使用 1 个 cpu 花费近 20 分钟,然后扩展到数百个,并在另外 20 分钟内完成。有没有办法让它自动缩放...

回答 2 投票 0

Apache Beam(数据流):是否可以创建具有多个窗口需求的管道

我正在尝试思考如何构建一些数据管道需求,我只是想知道以下是否可能: 我可以创建一个可以完全实时传输数据的 Apache Beam 管道吗...

回答 1 投票 0

无法从 Dataflow 中的 GCS 复制文件

我正在尝试将文件从 GCS 存储桶复制到数据流中的 /tmp 位置。为此,我尝试了下面的代码 - 导入 apache_beam 作为光束 .... .... 类copyFile(beam.DoFn): def __init__(se...

回答 1 投票 0

terraform:数据流 pubsubtopic 到 bigquery

我想在 terraform 中为 bigquery 作业创建 pubsub 主题。数据流有这个模板。我没有找到 terraform 的例子。您能提供任何示例 terraform 代码吗?

回答 2 投票 0

数据流管道运行错误:SDK 断开连接

我正在尝试使用 DataflowRunner 和 --no_use_public_ips 运行测试数据流管道。 它正在从 Bigquery 读取一个小表并将 csv 写入存储中,所有这些都在同一个项目中。 python3 ./数据...

回答 1 投票 0

您可以屏蔽 GCP - Spanner 中的机密数据吗?

是否可以屏蔽其中数据为置信度的扳手列之一中的数据项。 E.G 扳手有 3 列姓名、出生日期、地址。 有什么方法可以在跨度中屏蔽/加密 DOB...

回答 1 投票 0

使用 GCP Dataflow 在 Airflow 中进行 BeamRunJavaPipelineOperator 设置(执行非模板化作业!)

我正在努力让我的 BeamRunJavaPipeline() 在 Airflow 中工作以在 GCP 上运行数据流作业。 我已经在 Google Cloud Storage 中拥有了 jar 文件。 我基本上是在寻找指针和实用的

回答 1 投票 0

尝试让 Airflow 中的 BeamRunJavaPipelineOperator 使用 GCP Dataflow 工作(执行非模板化工作!)

我正在努力让我的 BeamRunJavaPipeline() 在 Airflow 中工作以在 GCP 上运行数据流作业。 我已经在 Google Cloud Storage 中拥有了 jar 文件。 我基本上是在寻找指针和实用的

回答 1 投票 0

Google Cloud Dataflow BigQuery 到 Bigtable 传输 - 限制写入速度?

我有许多数据流模板可将数据从 BigQuery 复制到 Bigtable 表。 其中最大的数据约为 900 万行、22GB。 没有复杂的突变,它只是一个co...

回答 1 投票 0

检查特定列中的所有值是否具有精确值,以使用另一个值更新 dataverse 单元格

我有 3 个 dataverse 表、项目、任务和子任务,其架构如下 任务有一个项目查找列,子任务有一个任务查找列。 每个表的 ID 为...

回答 1 投票 0

Google-Cloud-Dataflow:无法从 ARTIFACT REGISTRY 中提取图像

当我尝试使用dataflow运行flex模板时,作业日志报错。 docker:来自守护进程的错误响应:获取 XXXXXXXXXX 被拒绝:权限“artifactregistry.repositories。

回答 2 投票 0

如何将谷歌数据流字数输出保存到大查询表中?

我正在执行数据流字数统计实验,但结束后我想将输出存储到谷歌大查询而不是云存储中。 实验——https://cloud.google.com/dataflow/docs/sa...

回答 1 投票 0

更新 Google 表格源中的数据时,Google Looker 不显示值

我会澄清这个问题。我的谷歌表从 api 接收数据(参见屏幕截图)。每次更新后,信息都会更新并添加新列。结果,其他列被移入...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.