google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

如何提交依赖google dataproc集群的pyspark作业

我正在使用google dataproc集群来运行spark作业,该脚本在python中。当只有一个脚本(例如test.py)时,我可以使用以下命令提交作业:gcloud dataproc作业...

回答 1 投票 0

java.lang.UnsatisfiedLinkError:jep.Jep.init(Ljava / lang / ClassLoader; ZZ)on Google cloud dataproc

首先,我不明白为什么人们在这个问题上给分数打分。要么解释我如何改善问题。我可以进一步阐述。这是我的反馈。虽然我是新手,但我...

回答 1 投票 4

Kafka监听器无法正常工作!它在Intranet中是隔离的

我的Kafka节点托管在Google Cloud Dataproc中。但是,我们意识到通过默认初始化脚本安装的Kafka的设置方式仅允许内部网访问。它是...

回答 1 投票 2

如何访问Dataproc群集元数据?

创建集群后,我正在尝试检索其他组件的URL地址(不使用GCP仪表板)。我正在使用de Dataproc python API,更具体地说是...

回答 1 投票 0

带有气流中的DataprocOperator的组件网关

在GCP中,从UI或gcloud命令安装并运行JupyterHub组件非常简单。我正在尝试通过Airflow和DataprocClusterCreateOperator编写进程脚本,这里...

回答 1 投票 0

在Dataproc的群集中查找Hadoop流传输jar

因此,我想在Dataproc集群上运行Python map reduce作业,问题是我找不到需要提交到Main类或jar输入中的Hadoop流jar文件。我正在使用...

回答 1 投票 2

设置Datafusion实例以与受IAP保护的Dataproc集群连接

我们有一个受IAP(身份识别代理)保护的Dataproc集群,我们可以使用以下命令使用单个用户ID成功将SSH SSH到其中:gcloud computing ssh cluster-name --tunnel-through-iap ...

回答 1 投票 2

由于未注册Spark工作者而无法执行作业

[当我尝试在GCP Dataproc集群上执行Spark SQL查询时,我看到一个错误:初始作业未接受任何资源;检查您的群集UI,以确保工作人员已注册并具有...

回答 1 投票 1

Dataproc群集映像升级

由于我们的业务需求,我们必须使用长期运行的静态持久性Dataproc集群。有什么方法可以升级Dataproc映像以利用最新的OS / OSS更新?请帮助...

回答 1 投票 0

更改GCP DataProc群集的调度程序属性

[当我运行使用Dataproc Cluster Web界面的Jupyter Notebook创建的PySpark代码时,我发现正在运行的代码并没有使用主节点或工作节点中的所有资源。它...

回答 1 投票 2

GCP Dataproc集群上的工作流调度

我有一些复杂的Oozie工作流程,可以从本地Hadoop迁移到GCP Dataproc。工作流程包括shell脚本,Python脚本,Spark-Scala作业,Sqoop作业等。我遇到了一些...

回答 1 投票 1

Bigsearch管道的Elasticsearch部署在云数据融合实例上失败

我正在部署一个数据融合管道,该管道将从Elasticsearch的索引中获取数据并将该数据加载到bigQuery表中。管道仅包含与BigQuery的elasticsearch插件连接器...

回答 1 投票 0

Cloud Dataproc无法访问Cloud Storage存储桶

我有一个cloud dataproc Spark作业,该作业也使用Drvier方面的Cloud Strage API(从同一文件夹中选择特定文件以进行处理)。以下是Maven依赖项: ...

回答 1 投票 0

在Google Cloud DataProc上计划cron作业

我目前有一个PySpark作业,该作业已部署在DataProc群集上(1个主节点和4个具有足够核心和内存的工作节点)。此作业运行在数百万条记录上,并执行昂贵的...

回答 2 投票 3

Google Cloud dataproc无法使用--scopes = cloud-platform从cloudsql访问hive metastore

我已经创建了2个数据处理集群。要求是使用1个配置单元存储,并且两个集群都可以访问。第一个是ETL群集,它具有--scopes = sql-admin,第二个是ML用户--scopes = ...

回答 1 投票 0

存储在Google Cloud Storage(gcs)存储桶中的Dataproc导入python模块

我在GCS存储桶上具有以下结构:my_bucket / notebooks / jupyter /模块mymodule.py init.py notebook_1.ipynb我如何在笔记本_1.ipynb中导入mymodule? (notebook_1.ipynb是一个...

回答 1 投票 0

在datproc中的集群中查找Hadoop流传输jar

所以我想在dataproc群集上运行python map reduce作业,问题是我似乎找不到需要提交到Main类或jar输入中的Hadoop流jar文件,我正在使用.. 。

回答 1 投票 1

使用pySpark和Cloud Storage过滤数百万个文件

我正面临以下任务:我将各个文件(例如Mb)存储在Google Cloud Storage Bucket中,并按日期在目录中分组(每个目录包含大约5k个文件)。我需要查看每个...

回答 1 投票 3

ClassNotFoundException:找不到数据源:bigquery

我正在尝试将数据从Google BigQuery加载到在Google Dataproc上运行的Spark中(我正在使用Java)。我尝试按照以下说明进行操作:https://cloud.google.com/dataproc/docs/tutorials/bigquery -...

回答 1 投票 1

为什么在Spark / Dataproc上运行它需要这么长时间?

我正在使用在Dataproc集群上运行的Spark处理数据。我尝试过使集群更强大,增加了CPU和磁盘空间,但并没有太大帮助。我使用以下方法从BigQuery读取数据:...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.