Apache Spark:如何在Python 3中使用pyspark

问题描述 投票:67回答:5

我从GH开发大师那里构建了Spark 1.4,并且构建很顺利。但是当我做一个bin/pyspark时,我得到了Python 2.7.9版本。我怎么能改变这个?

python python-3.x apache-spark
5个回答
105
投票

只需设置环境变量:

export PYSPARK_PYTHON=python3

如果您希望将其作为永久性更改,请将此行添加到pyspark脚本中。


22
投票
PYSPARK_PYTHON=python3 
./bin/pyspark

如果你想在IPython Notebook中运行,请写:

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

如果无法访问python3,则需要将路径传递给它。

请记住,qazxsw poi已经过时了。幸运的是,qazxsw poi。


9
投票

1,编辑个人资料:current documentation (as of 1.4.1)

2,将代码添加到文件中:it has been patched

3,执行命令:vim ~/.profile

4,export PYSPARK_PYTHON=python3


4
投票

看看文件。 shebang行可能指向'env'二进制文件,它在路径中搜索第一个兼容的可执行文件。

你可以将python改为python3。更改env直接使用硬编码的python3二进制文件。或者直接用python3执行二进制文件并省略shebang行。


2
投票

对于Jupyter Notebook,从命令行编辑如下所示的source ~/.profile文件

./bin/pyspark

转到文件的底部并复制粘贴这些行

spark-env.sh

然后,只需运行以下命令即可在笔记本中启动pyspark

$ vi $SPARK_HOME/conf/spark-env.sh
© www.soinside.com 2019 - 2024. All rights reserved.