google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

获取在临时Dataproc集群上创建的外部表的列表

我在Dataproc集群上创建了几个表。该集群后来被销毁。但是,我使用外部命令创建了表。如何获取旧版中创建的所有表的列表...

回答 1 投票 0

使用“clusters.create”API初始化集群时指定连接器版本

我在Python中使用clusters.create API在Dataproc中创建集群。 {“projectId”:“my-project-id”,“clusterName”:“example-cluster”,“config”:{“configBucket”:“”,“gceClusterConfig”:{...

回答 1 投票 0

通过DataProc UI提交Spark Streaming作业

如何在DataProc UI上指定多个jar文件(我的意思是在Web浏览器上)。例如,从命令行我可以启动作业:export SPARK_MASTER = local [8] export DEPENDENCIES = / home / xxx / ....

回答 1 投票 0

在Google Cloud Dataproc中按顺序运行提交的作业

我使用n1-standard-4 VM为主人和工人创建了带有2名工作人员的Google Dataproc集群。我想在给定集群上提交作业,所有作业应按顺序运行(如在AWS EMR上),即...

回答 1 投票 0

Dataproc更改工作人员大小

我的工作(ML工作)每个工人需要超过15GB的RAM。如何更改工人的机器类型?目前:n1-standard-4(4个vCPU,15.0 GB内存)我宁愿保持我的集群不...

回答 2 投票 0

从.egg而不是.py运行PySpark作业

我正在尝试使用Dataproc运行PySpark作业。与所有示例相比,唯一不同的是我想从.egg而不是.py文件提交作业。为了提交......

回答 1 投票 1

对于具有受限用户访问权限的GCS的多用户,无法使用Dataproc群集

@ dennis-huo在Google Cloud数据中心中使用非默认服务帐户为了解决上述问题,我想为多用户设置数据中心群集。自Dataproc的计算引擎......

回答 1 投票 3

如何在谷歌云平台的项目之间共享资源(计算引擎)

我正在尝试创建原型,我可以在项目中共享资源以在google云平台中运行工作动机:假设有两个项目:项目A和项目B. ...

回答 1 投票 0

如何知道dataproc初始化操作何时完成

我需要运行安装了BigQuery和Cloud Storage连接器的Dataproc集群。我使用了这个脚本的一个变体(因为我无法访问常规脚本中使用的存储桶),...

回答 1 投票 0

Presto-CLI java.net.SocketException:GCP中的连接被拒绝

我使用带有可选组件presto的测试版gcloud创建了数据集群。 gcloud beta dataproc clusters创建presto-test --optional-components = PRESTO --image-version = 1.3-deb9 ...

回答 1 投票 2

如何在GCP中列出全局数据中心集群?

我正在尝试获取所有全局数据集群的列表,但似乎无法找到这样做的方法。 clusters.list API仅返回v1beta2 / projects / {projectId} / regions / {...的非全局集群。

回答 1 投票 1

有些YARN工作节点没有加入集群,而我在Dataproc上创建了spark集群

我在dataproc上创建了一个带有1个主节点和6个工作节点的火花簇。在GCP控制台上,我可以看到6个虚拟机正在运行,但我只在YARN节点管理器UI上看到5个节点。当我进入那台机器时......

回答 1 投票 1

dataproc cluster update(resize)命令未完成

我们有一个数据集群,我们为大型作业动态调整大小。我提交了一个群集调整大小请求,以便将我们的群集从10名工作人员,3名先发制人员减少到原来的规模(1m,2名工作人员),但......

回答 1 投票 1

我可以为数据通路群集的主节点分配静态内部IP地址吗?

我想为数据通路群集主节点分配一个静态内部IP地址。从谷歌云官方文档我知道如何对单个虚拟机这样做。但有谁知道如何分配保留内部...

回答 1 投票 1

如何使用Airflow DataprocOperator在Google DataProc群集上运行shell脚本

我正在尝试在设置群集后在Dataproc群集中运行shell脚本。我被困或不确定要传递给操作员的参数是什么,以便触发.sh文件一次...

回答 1 投票 2

最有效的方法是并行加载spark中的许多文件?

[免责声明:虽然这个问题有点具体,但我认为这是Hadoop / Spark的一个非常普遍的问题。]我需要在Spark中处理一个大型数据集(~14TB)。不进行聚合,主要是......

回答 1 投票 2

无法使用Spark的GSC连接器连接Google存储文件

我在我的本地机器上写了一个火花作业,它使用google hadoop连接器从谷歌云存储中读取文件,如gs://storage.googleapis.com/,如https://cloud.google.com / ...

回答 1 投票 10

如何为PySpark设置Window函数的分区?

我正在运行PySpark作业,我收到以下消息:WARN org.apache.spark.sql.execution.Window:没有为Window操作定义分区!将所有数据移动到单个分区,这......

回答 1 投票 2

如何获得使用Google Cloud DataProc群集上所有可用资源的火花作业?

例如,我目前有一个DataProc集群,由一个主服务器和4个工作器组成,每台机器有8个vCPU和30GB内存。每当我向集群提交作业时,集群最多会提交...

回答 2 投票 3

使用HBase odbc驱动程序连接Google Dataproc中的Google Bigtable

有没有人使用任何可用的HBase odbc驱动程序与Google Cloud Dataproc中的Google Bigtable建立连接?如果是,您能告诉您使用了哪个ODBC吗?谢谢

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.