google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

如何配置 GCS Spark 连接器以使用来自两个不同项目的两个不同的 GCS 存储桶?

我正在寻找一种在同一个 Spark 作业中配置多个 GCS 存储桶(来自不同项目)的方法。我已经能够以特定的方式解决这个问题(如下),但我怀疑可能有......

回答 1 投票 0

无法从 Dataproc Sparkjob 访问 GCP Access Secret Manager

我正在尝试从 dataproc Spark 作业中获取 GCP 秘密管理器秘密。但我收到错误“线程“main”中的异常 java.lang.NoClassDefFoundError: com/google/cloud/

回答 2 投票 0

Dataproc Serverless 计算资源配额

我试图在 Serverless 中一次执行超过 10 个 Dataproc 批次,这些批次是从 Airflow 自动触发的,但只有 5-6 个批次正在执行,其余的都失败了......

回答 1 投票 0

使用 Dataproc 客户端库与 Dataproc Serverless 交互

我正在编写一个 Java 代码,在其中使用 Dataproc Serverless 运行 Spark 批处理。我最初使用的是 Dataproc Java 客户端库,到目前为止,它运行得很好。但是,通过查看 Dataproc

回答 1 投票 0

错误:启动 Dataproc 集群时资源项目的权限被拒绝

我通过 gcloud dataproc cluster create 手动创建一个集群,成功启动了一个 dataproc 集群......但是,当我尝试通过脚本启动一个集群时(自动提供......

回答 2 投票 0

Nvidia 驱动程序无法在 Dataproc 2.1 上运行

我使用 GPU 驱动程序初始化操作在我的 Dataproc 2.1 集群中安装 Nvidia 驱动程序: gcloud dataproc 集群创建 my-cluster \ --image-版本 2.1-ubuntu20 \ --主机类型 n1-

回答 1 投票 0

将 SparkDF 转换为 Pandas DF 失败

我有一个在 Dataproc 集群上运行的 Spark 代码,该代码将表从 BigQuery 读取到 Spark 数据帧中。在此代码中,有一个步骤我需要使用 pandas 执行一些数据处理

回答 2 投票 0

Airflow - GCP Composer 中的 Bashoperator 任务

我正在使用 bash 运算符来运行 shell 脚本,该脚本实际上启动了 dataproc 流作业。这是永无止境的工作。问题是这个 bash 操作员任务自动进入失败状态......

回答 1 投票 0

无法更改 dbt dataproc 无服务器作业的超时值

我目前面临在 dbt 中使用 dataproc 无服务器选项提交的问题。我的 dataproc 作业大约需要 30 分钟才能完成,但我的 dbt 运行不断失败,并显示错误消息...

回答 2 投票 0

Dataproc Serverless Interactive 自定义环境变量

我在 Dataproc Serverless Interactive PySpark 会话中设置自定义环境变量时遇到问题。我按照文档并使用 Spark 设置了我的 python 环境变量。

回答 1 投票 0

从 dataProc Spark 作业将数据发布到 pubSub 时出错:找不到功能通道服务提供者

我正在 GCP DataProc 集群上运行 Spark scala 作业。处理数据后,我需要将消息发布到 PubSub 主题,但出现如下错误。 无功能频道服务

回答 1 投票 0

如何更快地处理此 Dataproc 作业?

该代码从 GCS 读取 628360 行的 CSV,使用 withColumn 方法对创建的 Dataframe 进行转换,然后写入分区的 Bigquery 表。 尽管这个简单的工作流程...

回答 1 投票 0

从 Postgres 读取数据并写入 Google BigQuery 时架构不匹配

我创建了一个 pyspark 脚本来通过 Dataproc 将数据从 PG DB 迁移到 Google Bigquery,但是在 dataproc 上运行日志时遇到错误 引起的:java.lang.NullPointerExcepti...

回答 1 投票 0

如何使用BigQueryToPostgresOperator

我是在 GCP 上使用 apache-airflow 的新手,我正在尝试在 Dataproc 无服务器内的 DAG 上使用 BigQueryToPostgresOperator 将表从 Bigquery 发送到 Cloud SQL,特别是发送到

回答 1 投票 0

如何在 Terraform 中禁用主要工作人员的自动缩放并仅启用辅助工作人员

我正在通过 Terraform (HCL) 启动 Dataproc 集群。在那里,我需要禁用主要工作人员的自动缩放,并仅对辅助工作人员保持自动缩放。 有人可以帮忙吗...

回答 1 投票 0

Dataproc:如何在 Terraform 中禁用主要工作人员的自动缩放并仅启用辅助工作人员

我正在通过 Terraform (HCL) 启动 Dataproc 集群。在那里,我需要禁用主要工作人员的自动缩放,并仅对辅助工作人员保持自动缩放。 有人可以帮忙吗...

回答 1 投票 0

Dataproc版本升级:Classloader预计是URLClassLoader的实例

我们一直在 CDF 6.8.2 和 Dataproc 2.0.79-debian10 上运行 Cloud Data Fusion 管道。由于 Dataproc 映像 2.0 即将失去支持,我们正在尝试将 Dataproc 单独升级到 2.1.35-debian...

回答 1 投票 0

Apache Livy 会话显示应用程序 id NULL

每当我尝试获取在 GCP Dataproc 集群上运行的 livy 应用程序的状态时,它总是返回空值,无论我在 livy.conf 中更改了什么,这让我很烦恼, 我...

回答 1 投票 0

Dataproc 的 BigQuery 扫描成本

我正在为我的业务实施数据转换,其中涉及从一个大型表(~20 TB)和其他几个较小的表(<100 MB) located in BigQuery. I might fetch the

回答 1 投票 0

Dataproc 组件网关的固定主机名

是否可以为 Dataproc 组件网关使用固定主机名?默认情况下,可以通过 https://42qlunruwrdhhauh3sryzzsz5a-dot-us-central1.dataproc 等 URL 访问 Dataproc 组件网关。

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.