google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

无法将组织模块导入PySpark集群

我正在尝试从组织模块导入FPGrowth,但是在安装组织模块时抛出错误。我还尝试将org.apache.spark替换为pyspark,仍然无法正常工作。 !pip install org import ...

回答 1 投票 1

将数据从BigQuery表加载到Dataproc集群时出错

我是Dataproc和PySpark的新手,在通过Jupyter Lab API将BigQuery表集成到Dataproc集群时遇到了某些问题。下面是我用于将BigQuery表加载到...

回答 1 投票 0

我应该将jar放在dataproc群集上,以便gcloud dataproc作业可以将它们用于提交火花?

我有一个初始化脚本,该脚本从我们的本地工件存储库中下载一个.jar并将其放入集群中每个节点上的/ usr / local / bin中。我可以使用gcloud dataproc作业提交来运行它...

回答 1 投票 2

Google Dataproc上的Spark UI:数字解释

我正在Google Dataproc集群(3个节点n1-highmem-4,因此有4个内核,每个26GB,对于主服务器来说是相同的类型)上运行spark作业。我对Hadoop和...

回答 1 投票 1

本地训练和Dataproc训练的Spark ML模型之间的不一致

我正在将Spark从2.3.1版本升级到2.4.5。我正在使用Dataproc映像1.4.27-debian9在Google Cloud Platform的Dataproc上使用Spark 2.4.5重新训练模型。当我加载由...

回答 1 投票 1

GKE上的Dataproc在提交作业时不使用图像

为什么GKE上的Dataproc不支持Docker映像来提交作业,而是将原始代码用于python / R而将jar用于其他人。 ...

回答 1 投票 1

有没有办法在Google Dataproc初始化操作中pip安装wheel或tar.gz python包

我正在尝试在Dataproc集群上pip安装软件包psycopg2。我尝试了以下操作,但是由于我的工作计算机具有防火墙限制,因此无法正常工作。 REGION = gcloud ...

回答 1 投票 1

如何在Google Cloud Dataproc中衡量高可用性

根据google文档,基于HDFS和YARN可用性而不是基于区域/区域来衡量Dataproc的高可用性。是否可以将一个主机保留在一个区域中,而将另一个主机保留在...

回答 1 投票 1

优化dataproc集群启动时间

我正在开发一个用户提交请求的应用程序,这些请求将作为即发作业处理。当前,我们的数据中心中有一个非常庞大的集群,可以满足...

回答 1 投票 1

如何释放Dataproc中块池使用的空间

[我已经开始了一个火花流工作,该工作流从kafka传输数据。我仅分配了两个带有15gb磁盘的工作节点进行测试。在2个小时内磁盘已满,并且这些节点的状态为...

回答 1 投票 1

通过gcloud dataproc读取张量文件

你好,我应该如何修改我的代码以正确读取dataset2? %% writefile read_rdd.py def read_RDD(argv):解析器= argparse.ArgumentParser()#获取解析器对象parser.add_argument('--...

回答 1 投票 0

!gcloud dataproc作业提交pyspark-错误AttributeError:'str'对象没有属性'batch'

我如何输入数据集类型作为dataproc作业的输入?地雷代码低于%% writefile spark_job.py导入sys导入pyspark导入argparse导入泡菜#def time_configs_rdd(test_set,...

回答 1 投票 1

改善pyspark作业分析数据

我在Google存储空间中有一些JSON文件,其中包含大量数据(介于500Gb和1Tb之间)。这些文件每行包含1个JSON对象,格式如下:{“ country”:“ US”,“ col1”:“ val1”,“ ...

回答 1 投票 0

我们也可以仅在GKE或私有本地k8上运行Dataproc吗?

我想知道是否有人尝试在私有k8s集群上而不是在GKE上运行Dataproc,或者考虑到目前的最新发展,是否有可能?] >>> [[

回答 1 投票 2

无法使用服务帐户创建dataproc集群

我是Google云计算和评估dataproc集群的新手,核心要求之一就是动态创建集群并处理作业。对于各种文档阅读和链接,i ...

回答 1 投票 0

[使用PySpark读取avro文件时出现java.lang.NoSuchMethodError

我正在尝试使用在Dataproc作业上运行的PySpark加载avro文件:spark_session.read.format(“ avro”)。load(“ / path / to / avro”)我遇到了流错误:File“ / usr / lib / spark / python / lib / ...

回答 1 投票 2

将作业参数提交给Dataproc中的Spark作业

[尝试在GCP Dataproc群集上运行Spark-Wiki-Parser。该代码接受两个参数“ dumpfile”和“ destloc”。提交以下内容时,出现[扇贝]错误:提供了过多的参数:'gs:...

回答 1 投票 0

Dataproc不会导入存储在Google云存储(gcs)存储桶中的python模块

我在GCS存储桶上具有以下结构:gs:// my_bucket / py_scripts / -wrapper.py -mymodule.py -_init__.py我正在通过Dataproc运行wrapper.py作为pyspark作业,并且会导入...

回答 1 投票 1

Spark设置为从最早的偏移量读取-尝试使用Kafka不再可用的偏移量时引发错误

我目前在Dataproc上运行spark作业,尝试重新加入一个群组并从kafka主题读取数据时遇到错误。我做了一些挖掘,不确定是什么问题。我有自动...。

回答 1 投票 3

通过其余的API使用--files启动dataproc作业

我能够通过命令行将作业提交到dataproc gcloud dataproc作业提交pyspark --cluster = my_cluster --region = myregion --py-files file1.py script.py我想对此进行转换...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.