我是 PySpark 的新手,尝试过这样的简单代码
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName('Read File')
sc = SparkContext.getOrCreate(conf=conf)
rdd = sc.textFile('data1.txt')
print(rdd.collect())
rdd2 = rdd.map(lambda x: x.split(' '))
print(rdd2.collect())
但是
rdd2.collect()
的执行总是给我带来如下问题:
ERROR Executor: Exception in task 1.0 in stage 2.0 (TID 5)/ 2]
org.apache.spark.SparkException: Python worker exited unexpectedly (crashed)
我已将此版本全部安装在本地并使用 cmd.exe 在 Windows 10 中执行:
我还声明了所有环境变量,
JAVA_HOME
,SCALA_HOME
,HADOOP_HOME
,SPARK_HOME
,PYSPARK_PYTHON
和PYSPARK_DRIVER_PYTHON
。最后 2 个包含 Python 安装路径上的 python.exe 路径。
我尝试卸载并重新安装所有内容,更改版本,更改环境变量,但我不知道现在该怎么办。
要在本地 Windows 计算机上安装 Spark,您根本不需要 Hadoop。如果你仍然想在你的机器上安装 Hadoop,那么你需要先配置并测试它是否正常运行,然后再进入 Spark 部分。 有许多关于如何在 Windows 计算机上安装 Apache Spark 的分步教程。根据您参考的版本是: