从 PySpark 开始并在简单代码中遇到问题

Question

我是 PySpark 的新手，尝试过这样的简单代码

from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName('Read File')
sc = SparkContext.getOrCreate(conf=conf)

rdd = sc.textFile('data1.txt')
print(rdd.collect())

rdd2 = rdd.map(lambda x: x.split(' '))
print(rdd2.collect())

但是

rdd2.collect()

的执行总是给我带来如下问题：

ERROR Executor: Exception in task 1.0 in stage 2.0 (TID 5)/ 2]
org.apache.spark.SparkException: Python worker exited unexpectedly (crashed)

我已将此版本全部安装在本地并使用 cmd.exe 在 Windows 10 中执行：

Python 3.12.1
Java 11.0.20
火花3.5.0
Hadoop 3.3.6

我还声明了所有环境变量，

JAVA_HOME

，

SCALA_HOME

，

HADOOP_HOME

，

SPARK_HOME

，

PYSPARK_PYTHON

和

PYSPARK_DRIVER_PYTHON

。最后 2 个包含 Python 安装路径上的 python.exe 路径。

我尝试卸载并重新安装所有内容，更改版本，更改环境变量，但我不知道现在该怎么办。

Answer 1

要在本地 Windows 计算机上安装 Spark，您根本不需要 Hadoop。如果你仍然想在你的机器上安装 Hadoop，那么你需要先配置并测试它是否正常运行，然后再进入 Spark 部分。有许多关于如何在 Windows 计算机上安装 Apache Spark 的分步教程。根据您参考的版本是：

Windows 上的 Apache Spark 3.5 安装

从 PySpark 开始并在简单代码中遇到问题

问题描述投票：0回答：1

1个回答

最新问题

从 PySpark 开始并在简单代码中遇到问题

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1