google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce，Spark，Pig和Hive服务。该服务提供GUI，CLI和HTTP API访问模式，用于部署/管理集群以及将作业提交到集群。

如果我这样给出我的火花配置： .config("spark.dynamicAllocation.enabled", "true") .config("spark.executor.memory", "12gb") .config(&q...

apache-spark pyspark google-cloud-dataproc

回答 0 投票 0

在 Goolge Dataproc 历史服务器上看不到“不完整的应用程序”

当我运行 spark 作业时，我无法在“不完整的应用程序”选项卡下的历史服务器上看到它，并且在作业完成之前它不会显示。我需要设置一些设置吗...

apache-spark google-cloud-dataproc dataproc

回答 1 投票 0

在 Google Dataproc 模板中 GCS 到 Bigtable 的依赖关系

在 GCS To Bigtable 模板中（https://github.com/GoogleCloudPlatform/dataproc-templates/tree/main/python/dataproc_templates/gcs#gcs-to-bigtable）它列出了 hbase-spark-protocol-shaded.jar和 hbase-sp...

google-cloud-dataproc

回答 1 投票 0

如何在Dataproc中访问SparkContext？

我的目标是使用elasticsearch-hadoop连接器，用pySpark将数据直接加载到ES中。我对dataproc和pySpark很陌生，很早就卡住了。我运行了一个单节点集群（图1......）。

elasticsearch pyspark google-cloud-dataproc

回答 1 投票 0

提交一个Python项目到Dataproc工作

我有一个python项目，它的文件夹结构是main_directory - lib - lib.py - run - script.py script.py来自lib.lib import add_two spark = SparkSession \ .builder \....

python pyspark google-cloud-dataproc

回答 1 投票 3

Dataproc 无法导入存储在 Google 云存储桶中的 Python 模块。

我在 Google Cloud Storage (GCS) bucket 上有以下结构：gs:/my_bucketpy_scripts wrapper.py mymodule.py _init__.py 我通过 Dataproc 以 pyspark 作业的形式运行 wrapper.py ...

python apache-spark pyspark python-import google-cloud-dataproc

回答 1 投票 1

在AWS上运行HDFS集群，不需要EMR。

我想在AWS上运行一个HDFS集群，在那里我可以存储需要使用我的自定义应用程序在EC2实例上运行处理的数据。AWS EMR是我能找到的创建HDFS的唯一方法 ...

amazon-web-services hadoop amazon-ec2 hdfs google-cloud-dataproc

回答 2 投票 1

在Bigquery中使用pyspark将数据编码为ISO_8859_1。

我的pyspark数据框架中有多语言字符。当我把数据写入Bigquery后，它显示出奇怪的字符，因为它的编码方案（utf-8）是聋哑的。我怎样才能改变编码方式呢？

apache-spark google-cloud-platform pyspark google-bigquery google-cloud-dataproc

回答 1 投票 0

在向Google Dataproc提交PySpark工作时，从requirements.txt中初始化虚拟环境。

我想在一个默认运行python3的DataProc集群中提交一个pyspark作业。我想用我的虚拟环境来初始化环境。我尝试了两种方法，一种是将整个虚拟环境压缩，另一种是将整个虚拟环境压缩。

apache-spark google-cloud-platform pyspark google-cloud-dataproc

回答 1 投票 3

在向Google Dataproc提交PySpark工作时，从requirements.txt中初始化虚拟环境。

我想在一个默认运行Python 3的Dataproc集群中提交一个PySpark作业。我想用我的虚拟环境来初始化环境。我尝试了两种方法，一种是将整个venv ...

apache-spark google-cloud-platform pyspark google-cloud-dataproc

回答 1 投票 3

为什么spark内容默认的并行度与vCPU数量不一样？

我在 Google 云平台 Dataproc 中使用下面的代码片段创建了一个集群。gcloud dataproc clusters create $SOLO \ --project $PROJ \ --bucket $STORAGE \ --region $REGION \ ...。

python apache-spark google-cloud-platform pyspark google-cloud-dataproc

回答 1 投票 1

我如何加载一个bigquery表到dataproc群集？

我是一个新的dataproc集群和PySpark，所以，在寻找代码的过程中加载表从bigquery到集群，我遇到了下面的代码，无法弄清楚什么都是我...

pyspark jupyter-lab google-cloud-dataproc

回答 1 投票 1

spark df中是否有一个函数可以被applymap所替代？

下面是为pandas df写的代码，因为内存问题，我不得不移动到PySpark，这就是为什么我需要转换这段代码，使其可以执行火花df。我试着运行这个...

python pandas apache-spark pyspark google-cloud-dataproc

回答 1 投票 2

当从pyspark集群导出表到BigQuery时，逗号正在为一列中的特定值生成单独的行。

我是通过使用下面的代码将一个火花df导出到bigquery的 gcs_bucket = 'main' bq_dataset = 'table' bq_table = 'user' Rules.write \ .format("bigquery") \ .option("table","{}.{}".format(...)。

apache-spark google-cloud-platform pyspark google-bigquery google-cloud-dataproc

回答 1 投票 0

如何安装mmlspark

我试图在我的pyspark代码上部署一个mmlspark.lightgbm模型。我试着在master的ssh上用pip安装mmlspark，得到的结果是满意，但当我运行项目时，又得到：mmlspark not ...

pyspark google-cloud-dataproc lightgbm

回答 1 投票 1

Dataproc中的Spark错误--java运行时环境内存不足

在使用Hive后，我尝试在Dataproc中执行spark-shell命令，得到了关于内存不足的错误信息；OpenJDK 64-Bit Server VM警告。INFO: os::commit_memory(...)

apache-spark google-cloud-platform google-cloud-dataproc

回答 1 投票 -1

org.apache.spark.SparkException: 无法初始化类com.google.cloud.spark.bigquery.SparkBigQueryConnectorUserAgentProvider。

下面是我用来导入bigquery表到PySpark集群(dataproc)的代码然后在上面运行fp -growth算法. 但是，今天当我运行同样的代码时，它却抛出了一个错误。它...

apache-spark google-cloud-platform pyspark google-bigquery google-cloud-dataproc

回答 1 投票 1

Dataproc不能自动生成暂存桶。

我对gcloud和dataproc非常陌生，我使用gcloud控制台。Dataproc不能为我的账户自动生成暂存桶，每次我都需要为每个新的集群指定一个现有的桶......

google-cloud-dataproc google-cloud-console

回答 1 投票 1

从Dataproc集群执行spark作业时，执行器心跳在125009毫秒后超时。

下面是我如何创建我的dataproc集群, 在制定属性时，我通过分配3600s来处理网络超时，但尽管如此，执行者的心跳在125009ms后就超时了... ...

shell apache-spark google-cloud-platform pyspark google-cloud-dataproc

回答 1 投票 0

尽管printSchema()为我的spark df产生了输出，但.show()和.count()却没有工作？为什么呢？

我目前使用jupyter hub通过dataproc集群运行PySpark作业。当我运行df.printSchema()时，它返回数据框架的模式，而当我运行df.show(10)或df.count()时，它......。

google-cloud-platform pyspark jupyter-lab google-cloud-dataproc

回答 1 投票 0

google-cloud-dataproc 相关问题

最新问题