Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。
我在Dataproc集群上创建了几个表。该集群后来被销毁。但是,我使用外部命令创建了表。如何获取旧版中创建的所有表的列表...
使用“clusters.create”API初始化集群时指定连接器版本
我在Python中使用clusters.create API在Dataproc中创建集群。 {“projectId”:“my-project-id”,“clusterName”:“example-cluster”,“config”:{“configBucket”:“”,“gceClusterConfig”:{...
通过DataProc UI提交Spark Streaming作业
如何在DataProc UI上指定多个jar文件(我的意思是在Web浏览器上)。例如,从命令行我可以启动作业:export SPARK_MASTER = local [8] export DEPENDENCIES = / home / xxx / ....
在Google Cloud Dataproc中按顺序运行提交的作业
我使用n1-standard-4 VM为主人和工人创建了带有2名工作人员的Google Dataproc集群。我想在给定集群上提交作业,所有作业应按顺序运行(如在AWS EMR上),即...
我的工作(ML工作)每个工人需要超过15GB的RAM。如何更改工人的机器类型?目前:n1-standard-4(4个vCPU,15.0 GB内存)我宁愿保持我的集群不...
我正在尝试使用Dataproc运行PySpark作业。与所有示例相比,唯一不同的是我想从.egg而不是.py文件提交作业。为了提交......
对于具有受限用户访问权限的GCS的多用户,无法使用Dataproc群集
@ dennis-huo在Google Cloud数据中心中使用非默认服务帐户为了解决上述问题,我想为多用户设置数据中心群集。自Dataproc的计算引擎......
我正在尝试创建原型,我可以在项目中共享资源以在google云平台中运行工作动机:假设有两个项目:项目A和项目B. ...
我需要运行安装了BigQuery和Cloud Storage连接器的Dataproc集群。我使用了这个脚本的一个变体(因为我无法访问常规脚本中使用的存储桶),...
Presto-CLI java.net.SocketException:GCP中的连接被拒绝
我使用带有可选组件presto的测试版gcloud创建了数据集群。 gcloud beta dataproc clusters创建presto-test --optional-components = PRESTO --image-version = 1.3-deb9 ...
我正在尝试获取所有全局数据集群的列表,但似乎无法找到这样做的方法。 clusters.list API仅返回v1beta2 / projects / {projectId} / regions / {...的非全局集群。
有些YARN工作节点没有加入集群,而我在Dataproc上创建了spark集群
我在dataproc上创建了一个带有1个主节点和6个工作节点的火花簇。在GCP控制台上,我可以看到6个虚拟机正在运行,但我只在YARN节点管理器UI上看到5个节点。当我进入那台机器时......
dataproc cluster update(resize)命令未完成
我们有一个数据集群,我们为大型作业动态调整大小。我提交了一个群集调整大小请求,以便将我们的群集从10名工作人员,3名先发制人员减少到原来的规模(1m,2名工作人员),但......
我想为数据通路群集主节点分配一个静态内部IP地址。从谷歌云官方文档我知道如何对单个虚拟机这样做。但有谁知道如何分配保留内部...
如何使用Airflow DataprocOperator在Google DataProc群集上运行shell脚本
我正在尝试在设置群集后在Dataproc群集中运行shell脚本。我被困或不确定要传递给操作员的参数是什么,以便触发.sh文件一次...
[免责声明:虽然这个问题有点具体,但我认为这是Hadoop / Spark的一个非常普遍的问题。]我需要在Spark中处理一个大型数据集(~14TB)。不进行聚合,主要是......
我在我的本地机器上写了一个火花作业,它使用google hadoop连接器从谷歌云存储中读取文件,如gs://storage.googleapis.com/,如https://cloud.google.com / ...
我正在运行PySpark作业,我收到以下消息:WARN org.apache.spark.sql.execution.Window:没有为Window操作定义分区!将所有数据移动到单个分区,这......
如何获得使用Google Cloud DataProc群集上所有可用资源的火花作业?
例如,我目前有一个DataProc集群,由一个主服务器和4个工作器组成,每台机器有8个vCPU和30GB内存。每当我向集群提交作业时,集群最多会提交...
使用HBase odbc驱动程序连接Google Dataproc中的Google Bigtable
有没有人使用任何可用的HBase odbc驱动程序与Google Cloud Dataproc中的Google Bigtable建立连接?如果是,您能告诉您使用了哪个ODBC吗?谢谢