google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

BigQuery Spark 连接器:通配符表或 TABLE_DATE_RANGE

我使用版本 0.2.1-s_2.11 中的适用于 Spark 的 Spotify BigQuery 连接器 (https://github.com/spotify/spark-bigquery) 从 Google BigQuery 加载原始 Google Analytics 数据。这个lib使用官方的

回答 1 投票 0

如何正确终止正在运行的批处理 dataproc 作业?

我在 DataProc Serverless 中运行了一个长时间运行的批处理作业。经过一段时间的运行后,我发现继续运行这项工作是浪费时间和金钱,我想停止它。 我不能

回答 1 投票 0

无法启动 Jupyter Notebook - GCP Dataproc

有一个主节点和 2 个工作节点 n2-standard-4 集群。 Jupyter 笔记本早些时候工作过,但从早上开始停止工作,当我们尝试

回答 1 投票 0

多个 GCP Dataproc 集群可以使用同一个元存储吗?

计划将 Dataproc 集群与 Dataproc Metastore 结合使用。 问题: 当我们删除 Dataproc 集群时,Dataproc Metastore 会继续保持可用吗? 两个不同的 Dataproc 集群可以...

回答 1 投票 0

编排 Cloud Composer、Dataproc 和存储传输服务以实现高效数据移动

考虑到 Dataproc 无法与 Unix 建立直接连接的限制,在集成存储传输服务时同时使用 Cloud Composer 和 Dataproc 是否可行

回答 0 投票 0

使用 Google Cloud Workflows 触发 Dataproc Batch 作业

我的场景需要编排,因为流程(例如 DAG)中的作业是连接/相互依赖的。 Cloud Composer 太贵了,因为我们只有几个作业要运行(不值得)。 我已经...

回答 0 投票 0

Dataproc Spark 作业有时会因iceberg jar 文件而出现 java.lang.ClassNotFoundException

每小时安排一次 dataproc 集群创建和 Spark 作业提交,作业完成后集群将被删除。有时作业会因为java.lang而失败。

回答 0 投票 0

从 DataProc (Hive) 加载数据到 BigQuery 时出现超时错误

我们在将数据从 DataProc (Hive) 加载到 BigQuery 时遇到超时错误。 错误: 发生异常:调用目标函数时超过 600.0 秒的最后期限,最后一个异常:

回答 1 投票 0

作业因错误而失败:gcloud 崩溃(AttributeError):“bool”对象没有属性“lower”

我们注意到我们的作业在 dataproc 集群上失败并出现以下错误。 错误:gcloud 崩溃(AttributeError):“bool”对象没有属性“lower” 如果您想报告此问题,

回答 5 投票 0

ModuleNotFoundError:Dataproc Serverless Pyspark 作业中没有名为“elasticsearch”的模块

我正在尝试在 Dataproc Serverless Spark pyspark 作业中使用弹性搜索包。我只在 Dataproc Serverless 中遇到这个包的问题。 导入操作系统 print("当前目录:", os.get...

回答 1 投票 0

由于找不到网络而无法启动数据处理批处理无服务器

这是一个关于如何正确设置 dataproc Serverless for Spark 网络配置的新手问题。从下面的截图中,我找不到主网络和子网络

回答 0 投票 0

如何设置 venv 或设置以在不在容器映像中安装包的情况下为 GCP Dataproc Serverless Spark 运行 pyspark 作业

我正在开展一个项目,我们希望向一组客户发布无服务器 Spark 容器映像,以使用此映像来运行他们的无服务器 Spark 工作负载。 但是要按顺序运行 pyspark 作业...

回答 1 投票 0

Dataproc 无服务器写入 Bigtable:org.apache.spark.SparkException:写入行时任务失败

我如何找出根本原因? (我正在从 Casssandra 读取并写入 Bigtable) 我试过了: 查看 Cassandra 日志 删除列以防出现数据问题 减少 spark.cassan ...

回答 1 投票 0

从 dataproc 连接到 cosmos 时出错

我正在按照以下文档从 dataproc 连接到 cosmos。 https://github.com/Azure/azure-cosmosdb-spark 但是,我遇到了以下错误。 引起:java.lang.IllegalStateException:...

回答 0 投票 0

GCP Dataproc 无法在没有 NAT 的情况下访问 GKE 上的 Kafka 集群——两者都在同一个 VPC 上

我在 GKE 上有一个 Kafka Custer,我在 Dataproc 上使用 Apache Spark 来访问 Kafka 集群。 Dataproc 集群是私有集群,即 --no-address 在创建 Dataproc 集群时指定...

回答 1 投票 0

如何使用 pyspark 将 spark DataFrame 保存回 Google BigQuery 项目?

我正在从 BigQuery 加载数据集,经过一些转换后,我想将转换后的 DataFrame 保存回 BigQuery。有没有办法做到这一点? 这就是我加载数据的方式:...

回答 2 投票 0

Google Cloud Client Libraries for Go 中的“dataproc”和“dataprocpb”包有什么区别?

在开发 Dataproc 的 Go 客户端库时,我注意到有两个包 dataproc 和 dataprocpb。 Dataproc 包似乎引用了一些在 dataprocpb 中定义的对象。 我没有

回答 0 投票 0

创建集群后,如何在 gcp dataproc 集群中启用组件网关、jupyter notebook

我们在 gcp 中创建并运行了集群,我们想要包含组件网关 - jupyter notebook。我知道可以,如果集群是第一次创建的话。如果集群有 cr...

回答 1 投票 0

使用 Apache Spark 从 BigQuery 表读取 BIGNUMERIC 数据类型时出错

我有一个从 Big Query 表读取数据的 Dataproc Spark 作业。 Big Query 表有一个 BIGNUMERIC 类型的列。 Spark 能够成功地从表中读取,但问题是......

回答 2 投票 0

使用 Dataproc 和 Spark 查询 BQ 表 - 如何在本地 IDE 上运行脚本

我在尝试使用 dataproc + spark 从我的 bigquery 表中查询数据时遇到了一些挑战。 我在 GCP 上创建了一个集群并配置了一个自动连接的 jupyter notebook ...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.