google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

dataproc - 火花配置

如果我这样给出我的火花配置: .config("spark.dynamicAllocation.enabled", "true") .config("spark.executor.memory", "12gb") .config(&q...

回答 0 投票 0

在 Goolge Dataproc 历史服务器上看不到“不完整的应用程序”

当我运行 spark 作业时,我无法在“不完整的应用程序”选项卡下的历史服务器上看到它,并且在作业完成之前它不会显示。我需要设置一些设置吗...

回答 1 投票 0

在 Google Dataproc 模板中 GCS 到 Bigtable 的依赖关系

在 GCS To Bigtable 模板中(https://github.com/GoogleCloudPlatform/dataproc-templates/tree/main/python/dataproc_templates/gcs#gcs-to-bigtable)它列出了 hbase-spark-protocol-shaded.jar和 hbase-sp...

回答 1 投票 0

如何在Dataproc中访问SparkContext?

我的目标是使用elasticsearch-hadoop连接器,用pySpark将数据直接加载到ES中。我对dataproc和pySpark很陌生,很早就卡住了。我运行了一个单节点集群(图1......)。

回答 1 投票 0

提交一个Python项目到Dataproc工作

我有一个python项目,它的文件夹结构是main_directory - lib - lib.py - run - script.py script.py来自lib.lib import add_two spark = SparkSession \ .builder \....

回答 1 投票 3

Dataproc 无法导入存储在 Google 云存储桶中的 Python 模块。

我在 Google Cloud Storage (GCS) bucket 上有以下结构:gs:/my_bucketpy_scripts wrapper.py mymodule.py _init__.py 我通过 Dataproc 以 pyspark 作业的形式运行 wrapper.py ...

回答 1 投票 1

在AWS上运行HDFS集群,不需要EMR。

我想在AWS上运行一个HDFS集群,在那里我可以存储需要使用我的自定义应用程序在EC2实例上运行处理的数据。AWS EMR是我能找到的创建HDFS的唯一方法 ...

回答 2 投票 1

在Bigquery中使用pyspark将数据编码为ISO_8859_1。

我的pyspark数据框架中有多语言字符。当我把数据写入Bigquery后,它显示出奇怪的字符,因为它的编码方案(utf-8)是聋哑的。我怎样才能改变编码方式呢?

回答 1 投票 0

在向Google Dataproc提交PySpark工作时,从requirements.txt中初始化虚拟环境。

我想在一个默认运行python3的DataProc集群中提交一个pyspark作业。我想用我的虚拟环境来初始化环境。我尝试了两种方法,一种是将整个虚拟环境压缩,另一种是将整个虚拟环境压缩。

回答 1 投票 3

在向Google Dataproc提交PySpark工作时,从requirements.txt中初始化虚拟环境。

我想在一个默认运行Python 3的Dataproc集群中提交一个PySpark作业。我想用我的虚拟环境来初始化环境。我尝试了两种方法,一种是将整个venv ...

回答 1 投票 3

为什么spark内容默认的并行度与vCPU数量不一样?

我在 Google 云平台 Dataproc 中使用下面的代码片段创建了一个集群。gcloud dataproc clusters create $SOLO \ --project $PROJ \ --bucket $STORAGE \ --region $REGION \ ...。

回答 1 投票 1

我如何加载一个bigquery表到dataproc群集?

我是一个新的dataproc集群和PySpark,所以,在寻找代码的过程中加载表从bigquery到集群,我遇到了下面的代码,无法弄清楚什么都是我...

回答 1 投票 1

spark df中是否有一个函数可以被applymap所替代?

下面是为pandas df写的代码,因为内存问题,我不得不移动到PySpark,这就是为什么我需要转换这段代码,使其可以执行火花df。我试着运行这个...

回答 1 投票 2

当从pyspark集群导出表到BigQuery时,逗号正在为一列中的特定值生成单独的行。

我是通过使用下面的代码将一个火花df导出到bigquery的 gcs_bucket = 'main' bq_dataset = 'table' bq_table = 'user' Rules.write \ .format("bigquery") \ .option("table","{}.{}".format(...)。

回答 1 投票 0

如何安装mmlspark

我试图在我的pyspark代码上部署一个mmlspark.lightgbm模型。我试着在master的ssh上用pip安装mmlspark,得到的结果是满意,但当我运行项目时,又得到:mmlspark not ...

回答 1 投票 1

Dataproc中的Spark错误--java运行时环境内存不足

在使用Hive后,我尝试在Dataproc中执行spark-shell命令,得到了关于内存不足的错误信息;OpenJDK 64-Bit Server VM警告。INFO: os::commit_memory(...)

回答 1 投票 -1

org.apache.spark.SparkException: 无法初始化类com.google.cloud.spark.bigquery.SparkBigQueryConnectorUserAgentProvider。

下面是我用来导入bigquery表到PySpark集群(dataproc)的代码 然后在上面运行fp -growth算法. 但是,今天当我运行同样的代码时,它却抛出了一个错误。它...

回答 1 投票 1

Dataproc不能自动生成暂存桶。

我对gcloud和dataproc非常陌生,我使用gcloud控制台。Dataproc不能为我的账户自动生成暂存桶,每次我都需要为每个新的集群指定一个现有的桶......

回答 1 投票 1

从Dataproc集群执行spark作业时,执行器心跳在125009毫秒后超时。

下面是我如何创建我的dataproc集群, 在制定属性时,我通过分配3600s来处理网络超时,但尽管如此,执行者的心跳在125009ms后就超时了... ...

回答 1 投票 0

尽管printSchema()为我的spark df产生了输出,但.show()和.count()却没有工作?为什么呢?

我目前使用jupyter hub通过dataproc集群运行PySpark作业。当我运行df.printSchema()时,它返回数据框架的模式,而当我运行df.show(10)或df.count()时,它......。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.