如何在 ubuntu 22.04 中安装 Spark 并配置 Spark 独立集群,并从 Windows 计算机上安装的 RStudio 连接它

问题描述 投票:0回答:1

我已经在 Ubuntu(远程服务器)上安装了 Spark,但无法从本地计算机(Windows 操作系统)上安装的 rstudio 连接它。

 
start_shell 中出现错误(master = master,spark_home = Spark_home,spark_version = version,: SPARK_HOME 目录 '/opt/spark/' 未找到

sc<- spark_connect(master = "spark://192.168.21.107:4040",

  •                 spark_home = "/opt/spark/",
    
  •                 version="3.1.2")
    

start_shell(master = master,spark_home =spark_home,spark_version = version,: SPARK_HOME 目录 '/opt/spark/' 未找到

sc<- spark_connect(master = "spark://192.168.21.107:7077",

  •                 spark_home = "/opt/spark/",
    
  •                 version="3.1.2")
    

start_shell(master = master,spark_home =spark_home,spark_version = version,: SPARK_HOME 目录 '/opt/spark/' 未找到`

我想从Windows机器上安装的rstudio连接spark

r apache-spark sparkr
1个回答
0
投票

要从 Windows 计算机上的 RStudio 连接到在远程 Ubuntu 服务器上运行的 Spark 独立集群,您需要确保在服务器上正确配置 Spark,并且您已在 RStudio 中正确设置连接。以下是实现此目标的步骤:

在 Ubuntu 服务器上:

安装 Spark:确保您的 Ubuntu 服务器上安装了 Spark。您可以从 Apache Spark 网站下载它并按照安装说明进行操作。

配置 Spark:确保您的服务器上正确配置 Spark。确保 SPARK_HOME 环境变量设置为 Spark 安装目录。例如,将以下行添加到您的 .bashrc 或 .bash_profile:

export SPARK_HOME=/path/to/spark

然后,运行 source .bashrc (或 .bash_profile)以应用更改。

启动 Spark 独立集群:在您的服务器上,使用以下命令启动 Spark 独立集群:

$SPARK_HOME/sbin/start-master.sh

这将启动 Spark Master 并显示 Web UI。记下 URL(例如,spark://192.168.21.107:7077),因为稍后您将需要它。

打开必要的端口:确保服务器防火墙中打开必要的端口以进行 Spark 通信。默认情况下,Spark 使用端口 7077 和 4040,因此请确保它们可以访问。

在 Windows 计算机上(使用 RStudio):

安装 R 和 RStudio:如果尚未安装,请确保您的 Windows 计算机上安装了 R 和 RStudio。

安装sparklyr 软件包:您需要sparklyr 软件包将RStudio 连接到Spark 集群。在 RStudio 中使用以下命令安装它:

install.packages("sparklyr")

从RStudio连接到Spark:在RStudio中,您可以使用sparklyr包中的spark_connect函数连接到远程服务器上的Spark集群。这是一个例子:

library(sparklyr)

sc <- spark_connect(
  master = "spark://192.168.21.107:7077",
  spark_home = "/path/to/spark",
  version = "3.1.2"
)

master:使用之前获取的Spark Master的URL。 Spark_home:将其设置为服务器上的 Spark 安装目录。 version:指定您正在使用的 Spark 版本。 测试连接:您可以使用sparklyr 包在RStudio 中运行Spark 命令来测试连接。

请记住将 /path/to/spark 替换为 Ubuntu 服务器上 Spark 安装目录的实际路径。另外,请确保没有防火墙问题阻止 Windows 计算机和 Ubuntu 服务器之间的通信。

© www.soinside.com 2019 - 2024. All rights reserved.