google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce，Spark，Pig和Hive服务。该服务提供GUI，CLI和HTTP API访问模式，用于部署/管理集群以及将作业提交到集群。

IllegalArgumentException：BigQueryConnectorException$InvalidSchemaException：目标表的架构与数据帧的架构不兼容

我们无法将数据写入大查询中。面临以下问题。大查询连接器 jar：spark-3.4-bigquery-0.33.0.jar 错误客户端：应用程序诊断消息：用户类引发异常：jav...

apache-spark amazon-emr google-cloud-dataproc

回答 1 投票 0

在 Google Dataproc Serverless 中找不到适用于 jdbc:mysql://metastore.example.com/metastore 的驱动程序

我正在尝试使用 Google Cloud Dataproc Serverless 运行 Spark 作业。当我使用普通的 dataproc Spark 集群运行该作业时，该作业运行良好。它使用存储在 mysql 数据库中的 Hive 元存储。当我...

google-cloud-platform google-cloud-dataproc google-cloud-dataproc-serverless

回答 1 投票 0

GCP 中 DataProc 集群中 Spot/Standard 抢占式节点的正常退役

我们正在尝试在 GCP 中设置 DataProc 集群。在这样做的同时，我们尝试使用 Spot VM 或标准可抢占 VM 的辅助节点（注意：现货 VM 也是可抢占的）。当...

google-cloud-dataproc graceful-shutdown

回答 1 投票 0

额外磁盘在默认虚拟机大小调整之上的作用

当我们在虚拟机上创建dataproc集群时，我们可以选择在配置节点下添加额外的磁盘，即。 1) 主磁盘大小/类型 2) 本地 SSD 的数量。例如，VM n2-standard-4 有 4...

apache-spark google-cloud-platform google-cloud-dataproc

回答 1 投票 0

如何解决运行 pyspark 代码的 Dataproc 集群中的 OutOfMemoryError？

我正在编写 pyspark 代码，我在其中连接到 BigQuery 表并将该源表作为 df 导入。该过程需要重命名 df 列名称。为此，我定义了一个字典，

apache-spark google-cloud-platform pyspark google-cloud-dataproc airflow-2.x

回答 1 投票 0

spark.sql.shuffle.partitions - 默认值

根据文档 https://cloud.google.com/dataproc/docs/support/spark-job-tuning#:~:text=spark.-,sql.,less%20than%20100%20vCPUs%20total .,spark.sql.shuffle.partitions的默认值为200。是...

apache-spark google-cloud-dataproc

回答 1 投票 0

服务器错误：内部服务器错误：模块“google.auth.credentials”没有属性“CredentialsWithTokenUri”

我正在尝试使用以下 python 包创建 Data Proc 集群。 "PIP_PACKAGES": "google-cloud-bigquery==3.10.0 google-resumable-media[请求]==2.5.0 google-cloud-storage==2...

python-3.x google-cloud-dataproc gcs dataproc

回答 1 投票 0

Dataproc 集群中的 Scala Spark 作业返回 java.util.NoSuchElementException：None.get

我收到错误错误 org.apache.spark.executor.Executor：阶段 0.0 中任务 0.0 出现异常（TID 0） java.util.NoSuchElementException：None.get 当我使用 Dataproc 集群运行作业时，当我...

scala apache-spark google-cloud-dataproc

回答 2 投票 0

将位置参数传递给 Dataproc 无服务器 PySpark script.py

我运行了以下语句，但它未能将参数（--args argument =“xyz”）传递给script.py。我尝试以不同的方式传递参数，但脚本失败并出现错误 Index...

python google-cloud-platform pyspark google-cloud-dataproc

回答 1 投票 0

无法从“google.cloud”（未知位置）导入名称“dataproc_v1”

尝试从计算机通过 Jupyter Notebook 访问使用 Dataproc，我使用 pip 安装了所需的库。但是导入时出现错误导入 google.cloud.dataproc_v1 错误如下

python-3.x google-cloud-platform cloud google-cloud-dataproc dataproc

回答 3 投票 0

将 Spark 作业提交到 dataproc

当我将着色 JAR 提交到本地独立集群时，它工作正常。但是，当我将其提交到 Dataproc 集群时，我遇到了错误“java.lang.NoClassDefFoundError”，即使...

java apache-spark google-cloud-dataproc

回答 1 投票 0

Dataproc 批量约束违规

在我的项目中，启用constraints/compute.requireOsLogin策略约束。如果我尝试使用以下命令运行 dataproc 批处理作业： gcloud dataproc 批量提交 --project 在我的项目中，启用了 constraints/compute.requireOsLogin 策略约束。如果我尝试使用此命令运行 dataproc 批处理作业： gcloud dataproc batches submit --project <project-id> --region us-east1 pyspark --batch batch-123 gs://mybucket/test.py --version 2.1 --subnet test 我收到以下错误： ERROR: (gcloud.dataproc.batches.submit.pyspark) Batch job is FAILED. Detail: Constraint constraints/compute.requireOsLogin violated for project 123456789. 子网已启用专用 Google 访问权限。 test.py 文件可以是任何内容，我从here中获取了示例。如何修复该错误？我认为 dataproc 批次使用 Dataproc Serverless，它自行管理虚拟机，因此操作系统登录被禁用。如果您创建一个 Dataproc GCE 集群并提交作业，我认为这应该可行。

google-cloud-platform google-compute-engine google-cloud-dataproc

回答 1 投票 0

Dataproc 笔记本中的 Spark-Bigquery 连接器

我正在尝试在笔记本中使用spark-bigquery连接器，并在dataproc用户管理的笔记本中使用spark内核。我能够正确设置配置以使用 Spark-bigquery 连接器

apache-spark google-cloud-platform google-bigquery google-cloud-dataproc

回答 1 投票 0

我可以将 Google Dataproc 中的 Spark Master 公开给 Cloud Run 上运行的另一个服务吗？

我将我的应用程序部署为 Cloud Run 服务，其功能之一是使用 Spark://:7077 形式的 URL 将 Spark 作业提交给 Spark Master，该 URL 可以是

apache-spark google-cloud-platform google-cloud-run google-cloud-dataproc

回答 1 投票 0

Spark 读取 BigQuery 外部表

尝试从 BigQuery 读取外部表但出现错误 SCALA_VERSION="2.12" SPARK_VERSION="3.1.2" com.google.cloud.bigdataoss:gcs-connector:hadoop3-2.2.0,...

python pyspark google-bigquery google-cloud-dataproc spark-bigquery-connector

回答 2 投票 0

Spark 与 Google Cloud Spanner 的 JDBC 连接失败

我正在尝试使用 PySpark JDBC 连接从 Google Cloud Spanner 读取数据。我的 Spark 应用程序正在 Dataproc 集群上运行。我正在使用官方 Google Cloud Spanner JDBC 驱动程序...

apache-spark google-cloud-platform jdbc google-cloud-dataproc google-cloud-spanner

回答 4 投票 0

Dataproc 支持 Delta Lake 格式吗？

Databricks Delta 格式是否可用于 Google 的 GCP DataProc？对于 AWS 和 AZURE 来说，情况显然如此。然而，当仔细阅读、研究互联网时，我不确定这就是……

apache-spark google-cloud-platform databricks google-cloud-dataproc gcp-databricks

回答 1 投票 0

GCP Dataproc 上的原生 Delta Lake 支持

根据文档 https://cloud.google.com/blog/topics/developers-practitioners/how-build-open-cloud-datalake-delta-lake-presto-dataproc-metastore，Delta 本身受支持图像版本...

google-cloud-platform google-cloud-dataproc

回答 1 投票 0

Google Dataproc 上的 Spark UI 在哪里？

我应该使用什么端口来访问 Google Dataproc 上的 Spark UI？我尝试了端口 4040 和 7077 以及使用 netstat -pln 找到的许多其他端口防火墙已正确配置。

apache-spark google-cloud-dataproc

回答 4 投票 0

Google Cloud 数据目录 - 产品和灵活性

计划构建一个具有计算功能的数据平台，如 Google Cloud Dataproc，将数据存储在增量表（Deltalake）中。目前正在探索 GCP 堆栈中可用的数据目录以及开源...

google-cloud-platform google-cloud-dataproc hive-metastore google-data-catalog

回答 1 投票 0

google-cloud-dataproc 相关问题

最新问题