我正在尝试在我的系统中第一次设置 Pyspark 环境。我在安装 Apache Spark 时仔细遵循了所有说明。我使用的是Windows 11系统。
当我运行
pyspark
cmd 时,我收到此错误,
Python 3.10.7 (tags/v3.10.7:6cc6b13, Sep 5 2022, 14:08:36) [MSC v.1933 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
Traceback (most recent call last):
File "D:\SoftwareInstallations\spark-3.5.1\python\pyspark\shell.py", line 31, in <module>
import pyspark
File "D:\SoftwareInstallations\spark-3.5.1\python\pyspark\__init__.py", line 59, in <module>
from pyspark.rdd import RDD, RDDBarrier
File "D:\SoftwareInstallations\spark-3.5.1\python\pyspark\rdd.py", line 78, in <module>
from pyspark.resource.requests import ExecutorResourceRequests, TaskResourceRequests
ModuleNotFoundError: No module named 'pyspark.resource'
这些都是我设置的环境变量,
HADOOP_HOME = D:\SoftwareInstallations\hadoop-winutils\hadoop-3.3.5
PYTHONPATH = %SPARK_HOME%\python;%SPARK_HOME%\python\lib\py4j-0.10.9.7-src.zip
SPARK_HOME = D:\SoftwareInstallations\spark-3.5.1
我还尝试使用 pip install pyspark
再次安装
pyspark,但我仍然面临这个问题。
我终于解决了这个问题。问题似乎出在
SPARK_HOME
环境变量上。
最初指向 Spark 文件夹的 SPARK_HOME 变量
SPARK_HOME = D:\SoftwareInstallations\spark-3.5.1
将其更改为
site-packages
文件夹中的pyspark目录后,它按预期工作了
SPARK_HOME=C:\Users\my-user\AppData\Local\Programs\Python\Python312\Lib\site-packages\pyspark