google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

Dataproc集群属性(核心、内存和内存开销)设置

我是一个新的dataproc和PySpark。我创建了一个集群,配置如下: gcloud beta dataproc clusters create $CLUSTER_NAME \ --zone $ZONE \ --region $REGION \ --master- ...

回答 1 投票 1

如何通过gcloud命令创建dataporc集群时分配图像类型?

我想通过gcloud命令创建dataproc集群时将1.4-ubuntu18分配为映像类型。我找不到我应该输入的格式,只使用了名称,但是这个...

回答 1 投票 1

dataproc群集(PySpark)中的Jupyter NB单元现在执行了一个多小时,如何检查作业是否在运行?

以下是我用来将df从PySpark群集(dataproc)写入BigQuery的代码。在运行此早期版本时,我遇到了心跳超时问题,已修复该问题。然后我正在得到执行人...

回答 1 投票 0

容器因超出内存限制而被YARN杀死。通过dataproc cluster运行pyspark作业时使用的6.0 GB的6 GB物理内存

当从PySpark(Dataproc群集)将表写入BigQuery时遇到以下错误。出现以下错误的原因似乎是YARN因超出内存限制而杀死了Container。 6.0 GB的6 GB ...

回答 1 投票 3

是否有更好的方法通过PySpark群集(dataporc)将spark df加载到BigQuery中?

我目前正在使用以下代码通过PySpark群集(dataproc)将数据加载到BigQuery中,但是要么处理时间太长,要么由于执行时间超出错误而终止。 ...

回答 1 投票 1

如何安装Kudu?

我熟悉像hive,hbase,hdfs等的hadoop组件。但是,我对Apache Kudu还是陌生的。到目前为止,根据我的研究,我知道kudu只是像镶木地板那样的柱状存储。另外...

回答 2 投票 2

从spark创建数据并将数据写入Bigquery分区表

我们可以动态地在Bigquery中创建分区表(整数类型)并从spark向其加载数据吗?]

回答 1 投票 1

删除Dataproc上的集群后,存储在gcs中的Apache Spark检索表

我是Google云控制台的新手,所以这可能是一个琐碎的问题。我正在为数据科学项目使用免费的gcp。我在dataproc群集上运行python笔记本。我加载了数据...

回答 1 投票 2

错误:在BigQuery中无法访问类型为ARRAY >的值的字段元素

我从pyspark将df导出到BigQuery。 df具有包含数组元素的列,我如何将数组转换为串联字符串?每当我尝试查询导出的数组列...

回答 1 投票 2

无法将组织模块导入PySpark集群

我正在尝试从组织模块导入FPGrowth,但是在安装组织模块时抛出错误。我还尝试将org.apache.spark替换为pyspark,仍然无法正常工作。 !pip install org import ...

回答 1 投票 1

将数据从BigQuery表加载到Dataproc集群时出错

我是Dataproc和PySpark的新手,在通过Jupyter Lab API将BigQuery表集成到Dataproc集群时遇到了某些问题。下面是我用于将BigQuery表加载到...

回答 1 投票 0

我应该将jar放在dataproc群集上,以便gcloud dataproc作业可以将它们用于提交火花?

我有一个初始化脚本,该脚本从我们的本地工件存储库中下载一个.jar并将其放入集群中每个节点上的/ usr / local / bin中。我可以使用gcloud dataproc作业提交来运行它...

回答 1 投票 2

Google Dataproc上的Spark UI:数字解释

我正在Google Dataproc集群(3个节点n1-highmem-4,因此有4个内核,每个26GB,对于主服务器来说是相同的类型)上运行spark作业。我对Hadoop和...

回答 1 投票 1

本地训练和Dataproc训练的Spark ML模型之间的不一致

我正在将Spark从2.3.1版本升级到2.4.5。我正在使用Dataproc映像1.4.27-debian9在Google Cloud Platform的Dataproc上使用Spark 2.4.5重新训练模型。当我加载由...

回答 1 投票 1

GKE上的Dataproc在提交作业时不使用图像

为什么GKE上的Dataproc不支持Docker映像来提交作业,而是将原始代码用于python / R而将jar用于其他人。 ...

回答 1 投票 1

有没有办法在Google Dataproc初始化操作中pip安装wheel或tar.gz python包

我正在尝试在Dataproc集群上pip安装软件包psycopg2。我尝试了以下操作,但是由于我的工作计算机具有防火墙限制,因此无法正常工作。 REGION = gcloud ...

回答 1 投票 1

如何在Google Cloud Dataproc中衡量高可用性

根据google文档,基于HDFS和YARN可用性而不是基于区域/区域来衡量Dataproc的高可用性。是否可以将一个主机保留在一个区域中,而将另一个主机保留在...

回答 1 投票 1

优化dataproc集群启动时间

我正在开发一个用户提交请求的应用程序,这些请求将作为即发作业处理。当前,我们的数据中心中有一个非常庞大的集群,可以满足...

回答 1 投票 1

如何释放Dataproc中块池使用的空间

[我已经开始了一个火花流工作,该工作流从kafka传输数据。我仅分配了两个带有15gb磁盘的工作节点进行测试。在2个小时内磁盘已满,并且这些节点的状态为...

回答 1 投票 1

通过gcloud dataproc读取张量文件

你好,我应该如何修改我的代码以正确读取dataset2? %% writefile read_rdd.py def read_RDD(argv):解析器= argparse.ArgumentParser()#获取解析器对象parser.add_argument('--...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.