Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。
如何配置 GCS Spark 连接器以使用来自两个不同项目的两个不同的 GCS 存储桶?
我正在寻找一种在同一个 Spark 作业中配置多个 GCS 存储桶(来自不同项目)的方法。我已经能够以特定的方式解决这个问题(如下),但我怀疑可能有......
无法从 Dataproc Sparkjob 访问 GCP Access Secret Manager
我正在尝试从 dataproc Spark 作业中获取 GCP 秘密管理器秘密。但我收到错误“线程“main”中的异常 java.lang.NoClassDefFoundError: com/google/cloud/
我试图在 Serverless 中一次执行超过 10 个 Dataproc 批次,这些批次是从 Airflow 自动触发的,但只有 5-6 个批次正在执行,其余的都失败了......
使用 Dataproc 客户端库与 Dataproc Serverless 交互
我正在编写一个 Java 代码,在其中使用 Dataproc Serverless 运行 Spark 批处理。我最初使用的是 Dataproc Java 客户端库,到目前为止,它运行得很好。但是,通过查看 Dataproc
我通过 gcloud dataproc cluster create 手动创建一个集群,成功启动了一个 dataproc 集群......但是,当我尝试通过脚本启动一个集群时(自动提供......
Nvidia 驱动程序无法在 Dataproc 2.1 上运行
我使用 GPU 驱动程序初始化操作在我的 Dataproc 2.1 集群中安装 Nvidia 驱动程序: gcloud dataproc 集群创建 my-cluster \ --image-版本 2.1-ubuntu20 \ --主机类型 n1-
我有一个在 Dataproc 集群上运行的 Spark 代码,该代码将表从 BigQuery 读取到 Spark 数据帧中。在此代码中,有一个步骤我需要使用 pandas 执行一些数据处理
Airflow - GCP Composer 中的 Bashoperator 任务
我正在使用 bash 运算符来运行 shell 脚本,该脚本实际上启动了 dataproc 流作业。这是永无止境的工作。问题是这个 bash 操作员任务自动进入失败状态......
我目前面临在 dbt 中使用 dataproc 无服务器选项提交的问题。我的 dataproc 作业大约需要 30 分钟才能完成,但我的 dbt 运行不断失败,并显示错误消息...
Dataproc Serverless Interactive 自定义环境变量
我在 Dataproc Serverless Interactive PySpark 会话中设置自定义环境变量时遇到问题。我按照文档并使用 Spark 设置了我的 python 环境变量。
从 dataProc Spark 作业将数据发布到 pubSub 时出错:找不到功能通道服务提供者
我正在 GCP DataProc 集群上运行 Spark scala 作业。处理数据后,我需要将消息发布到 PubSub 主题,但出现如下错误。 无功能频道服务
该代码从 GCS 读取 628360 行的 CSV,使用 withColumn 方法对创建的 Dataframe 进行转换,然后写入分区的 Bigquery 表。 尽管这个简单的工作流程...
从 Postgres 读取数据并写入 Google BigQuery 时架构不匹配
我创建了一个 pyspark 脚本来通过 Dataproc 将数据从 PG DB 迁移到 Google Bigquery,但是在 dataproc 上运行日志时遇到错误 引起的:java.lang.NullPointerExcepti...
如何使用BigQueryToPostgresOperator
我是在 GCP 上使用 apache-airflow 的新手,我正在尝试在 Dataproc 无服务器内的 DAG 上使用 BigQueryToPostgresOperator 将表从 Bigquery 发送到 Cloud SQL,特别是发送到
如何在 Terraform 中禁用主要工作人员的自动缩放并仅启用辅助工作人员
我正在通过 Terraform (HCL) 启动 Dataproc 集群。在那里,我需要禁用主要工作人员的自动缩放,并仅对辅助工作人员保持自动缩放。 有人可以帮忙吗...
Dataproc:如何在 Terraform 中禁用主要工作人员的自动缩放并仅启用辅助工作人员
我正在通过 Terraform (HCL) 启动 Dataproc 集群。在那里,我需要禁用主要工作人员的自动缩放,并仅对辅助工作人员保持自动缩放。 有人可以帮忙吗...
Dataproc版本升级:Classloader预计是URLClassLoader的实例
我们一直在 CDF 6.8.2 和 Dataproc 2.0.79-debian10 上运行 Cloud Data Fusion 管道。由于 Dataproc 映像 2.0 即将失去支持,我们正在尝试将 Dataproc 单独升级到 2.1.35-debian...
每当我尝试获取在 GCP Dataproc 集群上运行的 livy 应用程序的状态时,它总是返回空值,无论我在 livy.conf 中更改了什么,这让我很烦恼, 我...
我正在为我的业务实施数据转换,其中涉及从一个大型表(~20 TB)和其他几个较小的表(<100 MB) located in BigQuery. I might fetch the
是否可以为 Dataproc 组件网关使用固定主机名?默认情况下,可以通过 https://42qlunruwrdhhauh3sryzzsz5a-dot-us-central1.dataproc 等 URL 访问 Dataproc 组件网关。