从 PySpark 开始并在简单代码中遇到问题

问题描述 投票:0回答:1

我是 PySpark 的新手,尝试过这样的简单代码

from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName('Read File')
sc = SparkContext.getOrCreate(conf=conf)

rdd = sc.textFile('data1.txt')
print(rdd.collect())

rdd2 = rdd.map(lambda x: x.split(' '))
print(rdd2.collect())

但是

rdd2.collect()
的执行总是给我带来如下问题:

ERROR Executor: Exception in task 1.0 in stage 2.0 (TID 5)/ 2]
org.apache.spark.SparkException: Python worker exited unexpectedly (crashed)

我已将此版本全部安装在本地并使用 cmd.exe 在 Windows 10 中执行:

  • Python 3.12.1
  • Java 11.0.20
  • 火花3.5.0
  • Hadoop 3.3.6

我还声明了所有环境变量,

JAVA_HOME
SCALA_HOME
HADOOP_HOME
SPARK_HOME
PYSPARK_PYTHON
PYSPARK_DRIVER_PYTHON
。最后 2 个包含 Python 安装路径上的 python.exe 路径。

我尝试卸载并重新安装所有内容,更改版本,更改环境变量,但我不知道现在该怎么办。

java python-3.x apache-spark pyspark cmd
1个回答
0
投票

要在本地 Windows 计算机上安装 Spark,您根本不需要 Hadoop。如果你仍然想在你的机器上安装 Hadoop,那么你需要先配置并测试它是否正常运行,然后再进入 Spark 部分。 有许多关于如何在 Windows 计算机上安装 Apache Spark 的分步教程。根据您参考的版本是:

Windows 上的 Apache Spark 3.5 安装

© www.soinside.com 2019 - 2024. All rights reserved.