数字海洋中的火花群设置

问题描述 投票:0回答:1

我正在尝试在DigitalOcean中设置一个火花簇,并在那里创建了一个主节点和两个从节点;我已经无法从pyspark方法setMaster()连接到master,即使有未使用的执行程序和大量的RAM仍然可用。

我得到的错误是:初始工作没有接受任何资源;检查群集UI以确保工作人员已注册并具有足够的资源。

我在master中的spark-env.sh文件如下所示:

export SPARK_MASTER_HOST='<MASTER IP ADDRESS>'
export JAVA_HOME='/usr/lib/jvm/java-8-oracle'
export SPARK_LOCAL_IP='<MASTER IP ADDRESS>'

slave中的spark-env.sh文件如下所示:

export SPARK_MASTER_HOST='<MASTER IP ADDRESS>'
export JAVA_HOME='/usr/lib/jvm/java-8-oracle'
export SPARK_LOCAL_IP='<SLAVE IP ADDRESS>'

我尝试使用Private Ip作为SPARK_MASTER_HOST以及SPARK_LOCAL_IP,但错误拒绝消失。我究竟做错了什么?

pyspark
1个回答
0
投票

可能你已经修好了。但以下是我遵循并为我工作的步骤。

  1. 将目录更改为Spark-> Conf目录
  2. 创建文件spark-env.sh.template的副本,并给出名称spark-env.sh
  3. 打开该文件(nano spark-env.sh或任何其他编辑器)
  4. 设置SPARK_PUBLIC_DNS的值(SPARK_PUBLIC_DNS = XX.XX.XX.XX)。此IP将是您的DO的Droplet公共IP地址。
  5. 允许4040端口进入防火墙(由于UI在4040端口运行,因此需要启用它.ufw enable 4040 / tcp)。
  6. 将您的目录更改为SPARK_HOME。
  7. bin / spark-shell(这将在你的终端打开火花壳)
  8. 如果成功,您会注意到Web UI正在监听http://XX.XX.XX.XX:4040端口。
  9. 获得scala提示后,在系统中打开浏览器并尝试访问该URL(http://XX.XX.XX.XX:4040)和Bingo!你的工作网址将是可见的。

我希望这能帮到您。如果您已经找到了自己的解决方案,请忽略。

快乐的编码。干杯!!

© www.soinside.com 2019 - 2024. All rights reserved.