无法在Google Colab上安装PySpark

问题描述 投票:0回答:2

我正在尝试使用下面给出的代码在Google Colab上安装PySpark但是出现以下错误。

tar: spark-2.3.2-bin-hadoop2.7.tgz: Cannot open: No such file or directory

tar: Error is not recoverable: exiting now

此代码已成功运行一次。但是在笔记本重启后它会抛出这个错误。我甚至尝试从其他Google帐户运行此操作,但再次出现同样的错误。

(还有什么方法我们不需要在笔记本重新启动后每次都安装PySpark吗?)

code:

--------------------------------------------------------------------------------------------------------------------------------

!apt-get install openjdk-8-jdk-headless -qq> / dev / null

!wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz

以下行似乎导致问题,因为它没有找到下载的文件。

!tar xvf spark-2.3.2-bin-hadoop2.7.tgz

我还尝试了以下两行(而不是上面两行)在媒体博客上建议的地方。但没什么更好的。

!wget -q http://mirror.its.dal.ca/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

!tar xvf spark-2.4.0-bin-hadoop2.7.tgz

!pip install -q findspark

-------------------------------------------------------------------------------------------------------------------------------

有任何想法如何摆脱这个错误并在Colab上安装PySpark?

pyspark google-colaboratory
2个回答
1
投票

我只是在使用colab运行pyspark

!pip install pyspark

它工作正常。


0
投票

您收到此错误是因为spark-2.3.2-bin-hadoop2.7已替换为官方站点和镜像站点上的最新版本。

转到任何此路径并获取最新版本

  1. http://apache.osuosl.org/spark/
  2. https://www-us.apache.org/dist/spark/

替换spark构建版本,你就完成了。一切都会顺利进行。

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
!tar xf spark-2.4.3-bin-hadoop2.7.tgz
!pip install -q findspark
© www.soinside.com 2019 - 2024. All rights reserved.