google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

Dataproc 的 BigQuery 扫描成本

我正在为我的业务实施数据转换,其中涉及从一个大型表(~20 TB)和其他几个较小的表(<100 MB) located in BigQuery. I might fetch the

回答 1 投票 0

Dataproc 组件网关的固定主机名

是否可以为 Dataproc 组件网关使用固定主机名?默认情况下,可以通过 https://42qlunruwrdhhauh3sryzzsz5a-dot-us-central1.dataproc 等 URL 访问 Dataproc 组件网关。

回答 2 投票 0

ValueError:未知的枚举标签“Hudi”

我正在使用 dataproc 2.1 以及 json 文件中的以下 software_config。 “软件配置”:{ “特性”: {}, “可选组件”:[“JUPYTE...

回答 1 投票 0

Dataproc serverless 似乎没有利用 Spark 属性连接到外部 hive 元存储

我有一个 GCP postgres 实例,用作 Dataproc 集群的外部 hive 元存储。我希望能够利用此元存储来执行 Dataproc 无服务器作业。尝试

回答 1 投票 0

Dataproc 上的 Knox 规则更新不起作用

我在实时 Dataproc 集群中更新了一些 Knox 规则并重新启动了 Knox,但新规则不起作用,仍然使用旧规则。可能的原因是什么以及如何解决?

回答 1 投票 0

Dataproc 上的 Knox 规则更新不起作用

我在实时 Dataproc 集群中更新了一些 Knox 规则并重新启动了 Knox,但新规则不起作用,仍然使用旧规则。可能的原因是什么以及如何解决?

回答 1 投票 0

在 Dataproc 上更新 Knox 规则不起作用

我在实时 Dataproc 集群中更新了一些 Knox 规则并重新启动了 Knox,但新规则不起作用,仍使用旧规则。可能的原因是什么以及如何解决?

回答 1 投票 0

Google Cloud Dataproc Serverless gcloud ttl 标志无法识别的参数

我正在使用运行时版本 2.1 运行 Google Cloud Dataproc Serverless Spark 批处理工作负载 该批处理在运行 4 小时后被取消 根据 Google Cloud Dataproc 无服务器指南 ...

回答 1 投票 0

如何访问 Dataproc 上使用 --files 传递的文件

gcloud dataproc 作业提交 Spark \ --cluster=集群\ --region=区域 \ --files=config.txt \ --class=类\ --jars=gs://abc.jar 我们需要访问驱动器上的 config.txt...

回答 3 投票 0

Dataproc Spark 代码中的 Hadoop fs 配置

我遇到了一个 Spark 代码,它在 GCP dataproc 上运行,向 GCS 读取和写入数据。该代码具有以下 Spark 配置。 Spark_session.sparkContext._conf.set("fs.gs.impl", "...

回答 1 投票 0

如何在 Dataproc 上全新安装 Spark 的升级版本

我使用 Spark 3.3.2 附带的 2.1 映像创建了一个 Dataproc 集群。我计划彻底升级到 Spark 3.5,并有一些疑问: 建议的升级步骤是什么...

回答 1 投票 0

Dataproc 上的 YARN 预留内存问题

当将 FIFO 调度程序与 YARN 一起使用时(FIFO 是默认的吧?),我发现 YARN 保留了一些内存/CPU 来运行应用程序。我们的应用程序不需要保留任何这些,因为我们想要修复

回答 1 投票 0

Spark 作业`容器根据请求被终止。 Dataproc 2.0 上的退出代码为 137`

我在 Dataproc 2.0 上的 Spark 作业失败。驱动日志里有很多 ExecutorLostFailure(由于正在运行的任务之一导致执行程序 45 退出) 原因:来自坏节点的容器:...容器...

回答 1 投票 0

将命令行参数提交给airflow上的pyspark作业

我在 GCP Dataproc 上有一个 pyspark 作业可以在气流上触发,如下所示: config = help.loadJSON("batch/config_file") MY_PYSPARK_JOB = { “参考”:{“

回答 2 投票 0

如何在使用 DataprocInstantiateInlineWorkflowTemplateOperator Airflow Operator 时启用 GPU?

我正在使用airflow.providers.google.cloud.operators.dataproc.DataprocInstantiateInlineWorkflowTemplateOperator将作业从Airflow提交到GCP Dataproc。 现在它接受以下模板...

回答 1 投票 0

Dataproc:从边缘节点向 YARN 提交 Spark 作业时对集群 HDFS 的依赖

我有一个正在运行的 Dataproc 集群。我想使用 Spark-Submit 从集群外部的边缘节点直接向 YARN 提交 Spark 作业。理想情况下,spark-submit 只需要访问 YARN

回答 1 投票 0

冰山表快照未过期

我正在使用 Dataroc Metastore、Dataproc Batch 和 Pyspark。虽然我使用的是 GCP,但我相信这是常见的 Apache Iceberg 问题。 我运行我的 Spark 作业并自动创建了冰山旅行表

回答 1 投票 0

为什么不建议使用持久性 Dataproc 集群?

我正在考虑运行一个托管 Hive 服务器的持久 GCP Dataproc 集群,它将提供一个 HiveQL 接口,用于查询和更新存储在 Google Cloud Storage 中的长期数据,

回答 3 投票 0

通过 createTime 过滤 GCP dataproc 批次列表不起作用

我正在尝试获取在特定日期创建(成功/失败/运行)的 GCP dataproc 批次的列表。但是,当我尝试过滤 dataproc batc 的结果时,我不断收到错误...

回答 1 投票 0

Spark进程运行无磁盘错误异常

我在 Google Cloud 中启动了一个 DataProc 集群。 我正在其中执行 Spark 应用程序。该应用程序的作用类似于网络服务器。它监听请求;然后触发 Spark 作业(又名:Spark

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.