在EMR中运行Jupyter笔记本时,没有名为'pyspark'的模块

问题描述 投票:0回答:1

一般而言,我是AWS和Spark的新手,我正在尝试在Amazon EMR中运行笔记本实例。当我尝试导入pyspark启动会话并从s3加载数据时,出现错误No module named'pyspark'。我创建的集群填充了Spark选项,我在做什么错?

python amazon-web-services pyspark jupyter-notebook amazon-emr
1个回答
0
投票

唯一适用于我的解决方案是将笔记本内核更改为PySpark内核,然后更改引导程序操作以安装pyspark内核默认不包含的软件包(在python version3.6中:

#!/bin/bash
sudo python3.6 -m pip install numpy \
    matplotlib \
    pandas \
    seaborn \
    pyspark

显然,默认情况下,它安装到python 2.7.16,因此它不输出任何错误消息,但是您不能导入模块,因为spark env使用Python 2.7.16。

© www.soinside.com 2019 - 2024. All rights reserved.