google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

IllegalArgumentException:BigQueryConnectorException$InvalidSchemaException:目标表的架构与数据帧的架构不兼容

我们无法将数据写入大查询中。面临以下问题。 大查询连接器 jar:spark-3.4-bigquery-0.33.0.jar 错误客户端:应用程序诊断消息:用户类引发异常:jav...

回答 1 投票 0

在 Google Dataproc Serverless 中找不到适用于 jdbc:mysql://metastore.example.com/metastore 的驱动程序

我正在尝试使用 Google Cloud Dataproc Serverless 运行 Spark 作业。当我使用普通的 dataproc Spark 集群运行该作业时,该作业运行良好。它使用存储在 mysql 数据库中的 Hive 元存储。当我...

回答 1 投票 0

GCP 中 DataProc 集群中 Spot/Standard 抢占式节点的正常退役

我们正在尝试在 GCP 中设置 DataProc 集群。 在这样做的同时,我们尝试使用 Spot VM 或标准可抢占 VM 的辅助节点(注意:现货 VM 也是可抢占的)。 当...

回答 1 投票 0

额外磁盘在默认虚拟机大小调整之上的作用

当我们在虚拟机上创建dataproc集群时,我们可以选择在配置节点下添加额外的磁盘,即。 1) 主磁盘大小/类型 2) 本地 SSD 的数量。 例如,VM n2-standard-4 有 4...

回答 1 投票 0

如何解决运行 pyspark 代码的 Dataproc 集群中的 OutOfMemoryError?

我正在编写 pyspark 代码,我在其中连接到 BigQuery 表并将该源表作为 df 导入。该过程需要重命名 df 列名称。为此,我定义了一个字典,

回答 1 投票 0

spark.sql.shuffle.partitions - 默认值

根据文档 https://cloud.google.com/dataproc/docs/support/spark-job-tuning#:~:text=spark.-,sql.,less%20than%20100%20vCPUs%20total .,spark.sql.shuffle.partitions的默认值为200。 是...

回答 1 投票 0

服务器错误:内部服务器错误:模块“google.auth.credentials”没有属性“CredentialsWithTokenUri”

我正在尝试使用以下 python 包创建 Data Proc 集群。 "PIP_PACKAGES": "google-cloud-bigquery==3.10.0 google-resumable-media[请求]==2.5.0 google-cloud-storage==2...

回答 1 投票 0

Dataproc 集群中的 Scala Spark 作业返回 java.util.NoSuchElementException:None.get

我收到错误 错误 org.apache.spark.executor.Executor:阶段 0.0 中任务 0.0 出现异常(TID 0) java.util.NoSuchElementException:None.get 当我使用 Dataproc 集群运行作业时,当我...

回答 2 投票 0

将位置参数传递给 Dataproc 无服务器 PySpark script.py

我运行了以下语句,但它未能将参数(--args argument =“xyz”)传递给script.py。我尝试以不同的方式传递参数,但脚本失败并出现错误 Index...

回答 1 投票 0

无法从“google.cloud”(未知位置)导入名称“dataproc_v1”

尝试从计算机通过 Jupyter Notebook 访问使用 Dataproc,我使用 pip 安装了所需的库。但是导入时出现错误 导入 google.cloud.dataproc_v1 错误如下

回答 3 投票 0

将 Spark 作业提交到 dataproc

当我将着色 JAR 提交到本地独立集群时,它工作正常。但是,当我将其提交到 Dataproc 集群时,我遇到了错误“java.lang.NoClassDefFoundError”,即使...

回答 1 投票 0

Dataproc 批量约束违规

在我的项目中,启用constraints/compute.requireOsLogin策略约束。 如果我尝试使用以下命令运行 dataproc 批处理作业: gcloud dataproc 批量提交 --project 在我的项目中,启用了 constraints/compute.requireOsLogin 策略约束。 如果我尝试使用此命令运行 dataproc 批处理作业: gcloud dataproc batches submit --project <project-id> --region us-east1 pyspark --batch batch-123 gs://mybucket/test.py --version 2.1 --subnet test 我收到以下错误: ERROR: (gcloud.dataproc.batches.submit.pyspark) Batch job is FAILED. Detail: Constraint constraints/compute.requireOsLogin violated for project 123456789. 子网已启用专用 Google 访问权限。 test.py 文件可以是任何内容,我从here中获取了示例。 如何修复该错误? 我认为 dataproc 批次使用 Dataproc Serverless,它自行管理虚拟机,因此操作系统登录被禁用。如果您创建一个 Dataproc GCE 集群并提交作业,我认为这应该可行。

回答 1 投票 0

Dataproc 笔记本中的 Spark-Bigquery 连接器

我正在尝试在笔记本中使用spark-bigquery连接器,并在dataproc用户管理的笔记本中使用spark内核。我能够正确设置配置以使用 Spark-bigquery 连接器

回答 1 投票 0

我可以将 Google Dataproc 中的 Spark Master 公开给 Cloud Run 上运行的另一个服务吗?

我将我的应用程序部署为 Cloud Run 服务,其功能之一是使用 Spark://:7077 形式的 URL 将 Spark 作业提交给 Spark Master,该 URL 可以是

回答 1 投票 0

Spark 读取 BigQuery 外部表

尝试从 BigQuery 读取外部表但出现错误 SCALA_VERSION="2.12" SPARK_VERSION="3.1.2" com.google.cloud.bigdataoss:gcs-connector:hadoop3-2.2.0,...

回答 2 投票 0

Spark 与 Google Cloud Spanner 的 JDBC 连接失败

我正在尝试使用 PySpark JDBC 连接从 Google Cloud Spanner 读取数据。我的 Spark 应用程序正在 Dataproc 集群上运行。我正在使用官方 Google Cloud Spanner JDBC 驱动程序...

回答 4 投票 0

Dataproc 支持 Delta Lake 格式吗?

Databricks Delta 格式是否可用于 Google 的 GCP DataProc? 对于 AWS 和 AZURE 来说,情况显然如此。然而,当仔细阅读、研究互联网时,我不确定这就是……

回答 1 投票 0

GCP Dataproc 上的原生 Delta Lake 支持

根据文档 https://cloud.google.com/blog/topics/developers-practitioners/how-build-open-cloud-datalake-delta-lake-presto-dataproc-metastore,Delta 本身受支持图像版本...

回答 1 投票 0

Google Dataproc 上的 Spark UI 在哪里?

我应该使用什么端口来访问 Google Dataproc 上的 Spark UI? 我尝试了端口 4040 和 7077 以及使用 netstat -pln 找到的许多其他端口 防火墙已正确配置。

回答 4 投票 0

Google Cloud 数据目录 - 产品和灵活性

计划构建一个具有计算功能的数据平台,如 Google Cloud Dataproc,将数据存储在增量表(Deltalake)中。 目前正在探索 GCP 堆栈中可用的数据目录以及开源...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.