Apache Spark ConnectionRefusedError: [WinError 10061] 由于目标机器主动拒绝而无法建立连接

Question

运行此代码时出现 ConnectionRefusedError

spark = SparkSession.builder.getOrCreate()

我安装了

Apache Spark 3.4.0

，

Java 20.0.1

，并使用了hadoop 3.3的winutils.exe。
在C盘我创建了三个文件夹：spark、hadoop、java。
目录如下所示：

C:\spark\spark-3.4.0-bin-hadoop3
C:\hadoop in\winutils.exe
C:\java\jdk

我像这样添加到环境变量中：
HADOOP_HOME = C:\hadoop
JAVA_HOME = C:\java\jdk
SPARK_HOME = C:\spark\spark-3.4.0-bin-hadoop3

这是截图。

我运行了以下代码片段。

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

# Load Dataset A and Dataset B as Spark DataFrames
dataset_A = spark.read.csv('A.csv', header=True, inferSchema=True)
dataset_B = spark.read.csv('B.csv', header=True, inferSchema=True)

merged_data = dataset_A.join(dataset_B, on='key', how='left')

直到这里都没有问题。但是当我运行这个

merged_data_pandas = merged_data.toPandas()

然后它会抛出连接错误消息。

我应该更改任何配置文件吗？

Answer 1

有时 Spark 可能会在本地会话上冻结，这种情况发生了好几次，它有助于重新启动 IDE（我正在使用 IntelliJ）以使其再次运行。另一种选择可能是验证 Spark 使用的端口是否打开且未被防火墙阻止。

Apache Spark ConnectionRefusedError: [WinError 10061] 由于目标机器主动拒绝而无法建立连接

问题描述投票：0回答：1

1个回答

最新问题

Apache Spark ConnectionRefusedError: [WinError 10061] 由于目标机器主动拒绝而无法建立连接

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1