我使用“pip install pyspark”安装了 pyspark,并且安装成功。然而,运行“spark --version”给了我
'spark' is not recognized as an internal or external command, operable program or batch file.
虽然“pyspark --version”给了我The system cannot find the path specified.
Java (java 22 2024-03-19) 和 Python (3.11) 运行良好。
我目前将 PYSPARK_PYTHON 设置为 python3,并将 %SPARK_HOME% 设置为 [userdir]\AppData\Local\Programs\Python\Python311\Lib\site-packages\pyspark,但两者都没有正确回显。 IE
echo %PYSPARK_PYTHON%
返回 %PYSPARK_PYTHON%
(与 SPARK_HOME 存在同样的问题)。我尝试通过高级系统设置和使用 setx /m 的命令行手动设置它。我在系统变量中看到两者都有正确的值。我最好的猜测是它们在某种程度上没有正确设置(因此回声不好)或者路径不正确(应该是 bin 目录吗?cmd 文件?)。有谁知道这个问题的解决办法吗?
如果重要的话,我尝试在 vscode 中执行此操作,但问题在命令提示符下是相同的。我只是尝试在本地运行 Spark,因此不需要完整安装。
问题是你的
SPARK_HOME
环境变量没有指向spark。 Pyspark
只是关于如何注册 Spark 所有功能的 Python 方式。
您需要从
https://spark.apache.org/downloads.html
下载spark。
还可以考虑下载相应的winutils并将其设置为
HADOOP_HOME
环境变量。
从https://github.com/robguilarr/spark-winutils-3.3.1
下载所需的winutils。
对于所有
Pycharm
用户:通过添加 PYSPARK_PYTHON
环境变量可能有助于解决 pyspark 问题。
对于所有其他不愿意在 Windows 上遇到安装问题的人,只需使用 docker 容器即可。但这是正确设置的另一个问题。 :)