google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce，Spark，Pig和Hive服务。该服务提供GUI，CLI和HTTP API访问模式，用于部署/管理集群以及将作业提交到集群。

在Dataproc主服务器上创建的/ datalab / notebooks目录在哪里？

一旦达到目的，我就会在短命的星团中旋转并摧毁它们。但是，我想在/ datalab / notebooks目录中保留我的笔记本，然后将它们复制到...

google-cloud-dataproc google-cloud-datalab

回答 2 投票 2

创建数据中心群集时报告的DataNode数量不足

在使用gs：//作为默认FS创建数据集群时，我收到“报告的DataNodes数量不足”错误。下面是我正在使用dataproc集群的命令。 gcloud dataproc集群......

hadoop google-cloud-storage google-cloud-dataproc

回答 2 投票 0

使用多个初始化脚本时，发现Dataproc初始化脚本错误pip命令错误

以下是我用于创建数据集群的命令。这里有两个初始化脚本。（1）jupyter.sh（2）my_initialize.sh gcloud dataproc clusters create create dproc \ --...

google-cloud-dataproc

回答 2 投票 1

尝试使用GCP进行蒙特卡罗方法时出错

当我尝试更改GCP的错误日志记录时，我不明白为什么会出现以下错误。编写/etc/spark/conf/log4j.properties时出错：没有这样的文件或目录我是GCP的新手并且会......

apache-spark google-cloud-platform montecarlo google-cloud-dataproc

回答 1 投票 0

用于Apache Spark的BigQuery连接器 - 更新分区表

我在Google DataProc上的Scala中写了一个Spark工作，它每天执行并处理每个标记有事务时间的记录。记录按年 - 月组合分组，每组都是......

scala apache-spark google-bigquery google-cloud-dataproc

回答 2 投票 0

使用--properties添加密钥时，Dataproc是否添加额外字段？

我正在尝试使用--properties字段更新或添加新字段到数据堆集群中的hive配置。我从云shell运行dataproc cluster命令。我所看到的是dataproc正在增加新的......

apache-spark hive google-cloud-dataproc

回答 1 投票 1

访问socks代理上的GCloud资源

我正在尝试访问GCloud资源，特别是DataProc的资源管理器的Hadoop UI，它运行在端口8088上。我在GCloud中有以下集群，而且从我的本地创建了一个...

hadoop proxy gcloud socks google-cloud-dataproc

回答 1 投票 0

Python Spark作业优化

我在Dataproc集群上运行PySpark（2.3），每个集群有3个节点（4个CPU）8 GB内存。数据接近130万行，有4列，即：Date，unique_id（字母数字），类别（10 ...

python pandas apache-spark pyspark google-cloud-dataproc

回答 1 投票 1

在GCP上连接b / w R studio server pro和hive

这不是编程相关的问题，请关注我。我目前在GCP上设置了两个实例 - 一个是R studio服务器PRO，另一个是我的Hive DB集群。我希望 ...

hadoop hive google-cloud-platform google-cloud-dataproc rstudio-server

回答 1 投票 1

Pyspark加入Dataproc失败

我试图在Dataproc集群上运行一些python pyspark脚本但是因为以下错误而失败：文件“/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/dataframe.py”，第815行，在连接中如果......

python pyspark gcp google-cloud-dataproc

回答 1 投票 0

YARN集群模式减少了执行程序实例的数量

我通过以下方式配置Google Cloud Dataproc集群：gcloud dataproc集群创建spark --async --image-version 1.2 \ --master-machine-type n1-standard-1 --master-boot-disk-size ...

apache-spark yarn google-cloud-dataproc

回答 1 投票 0

在Google Cloud Dataproc环境中使用Hadoop流运行python map reduce job时出错

我想使用hadoop流方法在Google Cloud Dataproc中运行python map reduce作业。我的地图缩小python脚本，输入文件和作业结果输出位于Google云端存储中。我试过了 ...

hadoop google-cloud-platform hadoop-streaming google-cloud-dataproc

回答 1 投票 1

将数据从Google Dataproc中的hive表移动到BigQuery

我们正在使用Google Dataproc进行数据转换，我们所有的数据都驻留在Dataproc Hive表中。如何将此数据传输/移动到BigQuery。

google-bigquery google-cloud-dataproc

回答 1 投票 0

Google Dataproc可抢占工作人员的初始化操作

我目前正在使用具有固定数量工作人员的Dataproc群集。每个worker都有一个非平凡的初始化操作，需要在worker上安装一些特定的库。最近，我们......

google-cloud-dataproc

回答 1 投票 1

PySpark worker在安装时无法导入包

我最近在gcloud DataProc上建立了一个集群（1个主服务器和2个从服务器）。我设法有一个带有PySpark内核的jupyter笔记本界面。只要我的工人不这样做，一切都有效......

import pyspark google-cloud-platform python-module google-cloud-dataproc

回答 1 投票 1

Google Cloud Logging中的Dataproc Spark作业输出

有没有办法将Dataproc Spark作业的输出发送到Google Cloud日志记录？如Dataproc文档中所述，作业驱动程序（Spark作业的主控）的输出可用...

apache-spark google-cloud-dataproc google-cloud-logging

回答 2 投票 16

将多个系统属性传递给Google Dataproc群集作业

我正在尝试在Dataproc集群上提交spark工作。该作业需要多个系统属性。我能够通过如下一个：gcloud dataproc jobs提交spark \ ...

apache-spark google-cloud-platform gcloud google-cloud-dataproc

回答 1 投票 1

将大数据集读取到Jupyter Notebook和Manipulate

我正在尝试将数据从BigQuery加载到Jupyter Notebook，在那里我将进行一些操作和绘图。数据集是2500万行，有10列，绝对超过了我的机器......

python-3.x google-bigquery out-of-memory jupyter-notebook google-cloud-dataproc

回答 1 投票 0

在Apache Spark中使用Bigquery Connector时如何设置分区数？

我正在阅读Google Cloud Dataproc和Apache Spark的文档，我无法弄清楚在使用Bigquery连接器时如何手动设置分区数。 ...

apache-spark pyspark google-bigquery google-cloud-dataproc

回答 1 投票 0

Google Storage API中的死锁

我在Dataproc上运行一个spark作业，它从一个桶中读取大量文件并将它们合并到一个大文件中。我通过着色使用google-api-services-storage 1.29.0。到现在为止它工作得很好，......

java google-cloud-platform google-cloud-dataproc google-storage-api

回答 1 投票 3

google-cloud-dataproc 相关问题

最新问题