为初学者安装pyspark

问题描述 投票:-1回答:1

我目前正在数据营地学习pyspark课程,现在想开始尝试使用pyspark在我自己的计算机上构建一些自己的项目。但是,我对spark / pysaprk本身的安装以及如何在jypter笔记本中运行感到困惑。

我在youtube上看过关于安装的视频,例如edurkea,它似乎通过创建vm机器并将其连接到另一台机器来进行安装,我不希望我只想在本地笔记本电脑上安装pysaprk。

我也遵循了此链接中的安装说明:

https://medium.com/@brajendragouda/installing-apache-spark-on-ubuntu-pyspark-on-juputer-ca8e40e8e655

并且当我在终端上运行命令pyspark时,我得到了no命令响应。

我查看了spark站点上的文档,我发现它不是很新手,并且想知道是否有人链接到此安装的易于遵循的指南。

我当前的操作系统是最新版本的ubuntu,目前我正在学习有关使用shell和bash脚本的信息,但这都是非常新的东西,我一直在寻找的许多东西开始使我感到困惑。

任何链接,建议都会非常有用。

apache-spark pyspark install
1个回答
0
投票

docker pyspark image使设置非常容易。这是a link describing the setup process。安装并运行docker后,输入以下命令行将启动jupyter Notebook环境,您可以在其中运行pyspark docker run -it -p 8888:8888 jupyter/pyspark-notebook

但是,此命令将挂载一个临时文件系统,这会使读取/保存数据变得困难。要将环境指向您的文件系统,请运行docker run -it --rm -p 8888:8888 -p 4040:4040 -p 4041:4041 -v /Users/your/path:/home/jovyan jupyter/pyspark-notebook

© www.soinside.com 2019 - 2024. All rights reserved.