我正在尝试使用下面给出的代码在Google Colab上安装PySpark但是出现以下错误。
此代码已成功运行一次。但是在笔记本重启后它会抛出这个错误。我甚至尝试从其他Google帐户运行此操作,但再次出现同样的错误。
(还有什么方法我们不需要在笔记本重新启动后每次都安装PySpark吗?)
!apt-get install openjdk-8-jdk-headless -qq> / dev / null
!wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz
以下行似乎导致问题,因为它没有找到下载的文件。
!tar xvf spark-2.3.2-bin-hadoop2.7.tgz
我还尝试了以下两行(而不是上面两行)在媒体博客上建议的地方。但没什么更好的。
!wget -q http://mirror.its.dal.ca/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
!tar xvf spark-2.4.0-bin-hadoop2.7.tgz
!pip install -q findspark
-------------------------------------------------------------------------------------------------------------------------------有任何想法如何摆脱这个错误并在Colab上安装PySpark?
我只是在使用colab运行pyspark
!pip install pyspark
它工作正常。
您收到此错误是因为spark-2.3.2-bin-hadoop2.7已替换为官方站点和镜像站点上的最新版本。
转到任何此路径并获取最新版本
替换spark构建版本,你就完成了。一切都会顺利进行。
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
!tar xf spark-2.4.3-bin-hadoop2.7.tgz
!pip install -q findspark