一般而言,我是AWS和Spark的新手,我正在尝试在Amazon EMR中运行笔记本实例。当我尝试导入pyspark启动会话并从s3加载数据时,出现错误No module named'pyspark'。我创建的集群填充了Spark选项,我在做什么错?
唯一适用于我的解决方案是将笔记本内核更改为PySpark内核,然后更改引导程序操作以安装pyspark内核默认不包含的软件包(在python version3.6中:
#!/bin/bash
sudo python3.6 -m pip install numpy \
matplotlib \
pandas \
seaborn \
pyspark
显然,默认情况下,它安装到python 2.7.16,因此它不输出任何错误消息,但是您不能导入模块,因为spark env使用Python 2.7.16。