google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

为什么相同 Spanner 数据库的副本大小存在差异?

我在 Google Cloud Spanner 上有一个名为“decision”的数据库。 我已将此“决策”数据库导出到 Google Cloud Storage 存储桶。 然后我将导出的数据库导入到新的 Spanner

回答 1 投票 0

如何在Azure数据工厂数据预览中更改按数据选择行?

在Azure数据工厂管道的数据流中,我想在数据预览选项卡中预览特定时期的行。每当我刷新数据预览时,我都会看到一年前的示例数据,而...

回答 1 投票 0

使用嵌套函数在 Google Dataflow 上运行 Apache Beam 管道时出现名称错误

我正在使用 Python 开发 Apache Beam 管道,在 Google Dataflow 上运行管道时遇到 NameError。该错误特别提到“json_encoder”未定义......

回答 1 投票 0

GCP Dataflow 无法从写入该文件的 GCP 存储位置读取“pipeline.pb”文件

我正在尝试使用以下命令运行数据流管道: !python3 ~/pipelines/Beam/pipeline.py \ --project='project_id' \ --region='区域' \ --dataset_id='dataset_id' \ --

回答 1 投票 0

Google 数据流问题

我们正在 Google bigquery 上新实施 DataWareHouse,我们的所有源都位于 prim 数据库上。因此,我们使用 ETL 和 Maven 的数据流以及 Apache Beam SDK 来运行 30 个管道...

回答 1 投票 0

Azure 数据工厂删除 CSV 文件每一行中的字符

我有 4 列的 CSV 文件,标题的名称与我的 MS SQL 表类似。但每当我运行“复制数据”活动时,它都会显示此错误消息。 对目标的操作插入...

回答 1 投票 0

如何正确配置使用增量文件作为接收器的Azure数据工厂数据流?

我正在尝试将数据接收到增量文件。我想使用使用唯一 ID 列的插入和更新方法:(接收器设置) 每当允许更新方法时,就会出现 AlterRow 操作...

回答 1 投票 0

SSIS 包中的可重用块/数据作为输入输出参数

我正在开发一个将使用 2 个数据源的包:一个是 SQL Server,另一个是 Cobol。 目标是在开始时测试参数以选择要使用的良好序列。 一旦数据...

回答 1 投票 0

Airflow 任务失败,返回码 Negsignal.SIGKILL

您好 Stack Overflow 社区, 我正在 GCP Cloud Composer 上运行 Airflow(版本 2.5.3)DAG,其中有几个任务将触发基于 java 的数据流作业。任务的代码看起来像...

回答 1 投票 0

说明与 Cloud Dataflow 一起使用时 Google Cloud PubSub 的成本

有关 pubsub 定价的文档非常少。有人可以解释以下场景的成本吗? 每个事件的数据大小 = 0.5 KB 每天的数据大小 = 1 TB 只有一个公共...

回答 2 投票 0

启动数据流弹性模板时遇到问题

我在启动数据流弹性模板时遇到以下问题。 启动器容器中发生错误:模板启动失败。查看控制台日志 12月13日之前一切都很好,...

回答 4 投票 0

为什么我在 adf 数据流中的导入投影会以奇怪的格式重命名列?

为什么我在 adf 数据流中的导入投影会以奇怪的格式重命名列? 在重置数据流源的架构时,推断列如下(这也是期望的结果...

回答 1 投票 0

如何减少与上游和下游流数据流作业连接的GCP云SQL实例的存储?

我们在 GCP 中使用 Cloud SQL 实例,其中包含 15(SSD) 数据 (Postgress)。有一些流数据流作业将数据写入 Cloud SQL 的源架构,还有一些其他

回答 1 投票 0

Apache Beam BigqueryIO(Java)io.grpc.StatusRuntimeException:INVALID_ARGUMENT:创建 upsert 流需要主集群键

我正在使用apache beam java从一个bigquery表中读取并使用applyRowMutations()写入另一个bigquery表,但它不起作用。 我已经使用

回答 1 投票 0

如何在 Kafka-Bigquery Dataflow Flex 模板中设置参数

我一直在尝试使用数据流弹性模板从 Kafka 消费者连接到 Bigquery。以下是我的配置 - gcloud dataflow flex-template run first-kafka --template-file-gcs-location gs://

回答 1 投票 0

连接两个Pcollection时没有schema时无法调用getSchema

我希望你一切都好。 我有两个 PCollection,我想应用 leftOuterJoin,但是当我执行此操作时,出现此错误,我不明白为什么: java.lang.IllegalStateException: Cannot

回答 1 投票 0

在 Python 中使用 Apache Beam 在 GCP Dataflow 中创建模板

任务: 我需要从本地 Oracle 获取数据并将其转储到 BigQuery 中。 我尝试过的选项 有多种方法可以实现相同的目的。 我尝试了第一个选项,即使用 Datastream 但由于

回答 1 投票 0

问题回复:FailedInserts PCollection / Beam 2.45 与 2.49 行为确认

上下文:GitHub 问题 26853 我对上述引用的功能请求以及 Beam 2.45 与 2.49 的差异有疑问。 如果 FailedInserts PCollection 未被消耗,BigQueryIO...

回答 1 投票 0

如何获取Dataprep作业的Dataflow模板?

我工作的客户将于 10 月份弃用 Dataprep,我们目前使用 Google Cloud Platform 进行所有工作。 Dataprep 是一个在数据流下运行的“漂亮”层, 目前,...

回答 1 投票 0

GCP PubSub 到 GCS 数据流

我有一个用例,可以在以下条件下从 PubSub 在 GCS 存储桶中创建文件: 窗口大小限制 发布到 PubSub 主题的消息大小超过 500MB 例如, i) 如果我们指定窗口 si...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.