运行此代码时出现 ConnectionRefusedError
spark = SparkSession.builder.getOrCreate()
Apache Spark 3.4.0
,Java 20.0.1
,并使用了hadoop 3.3的winutils.exe。
我运行了以下代码片段。
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
# Load Dataset A and Dataset B as Spark DataFrames
dataset_A = spark.read.csv('A.csv', header=True, inferSchema=True)
dataset_B = spark.read.csv('B.csv', header=True, inferSchema=True)
merged_data = dataset_A.join(dataset_B, on='key', how='left')
直到这里都没有问题。但是当我运行这个
merged_data_pandas = merged_data.toPandas()
然后它会抛出连接错误消息。
我应该更改任何配置文件吗?
有时 Spark 可能会在本地会话上冻结,这种情况发生了好几次,它有助于重新启动 IDE(我正在使用 IntelliJ)以使其再次运行。另一种选择可能是验证 Spark 使用的端口是否打开且未被防火墙阻止。