尝试在 Windows 10 中运行具有 GPU 支持的 pyspark 时“无法加载 cudf jni 库”

问题描述 投票:0回答:1

我尝试在支持 GPU 的 Windows 10 上运行 pyspark,但遇到了无法加载 cudf jni 库的错误。我正在使用以下命令运行 pyspark:

pyspark --jars "${SPARK_HOME}/jars/rapids-4-spark_2.12-23.12.2.jar,${SPARK_HOME}/jars/cudf-23.12.1" --conf spark.plugins=com.nvidia.spark.SQLPlugin --conf spark.rapids.sql.incompatibleOps.enabled=true

当我运行上述命令时,出现以下错误:

Python 3.8.10 (tags/v3.8.10:3d8993a, May  3 2021, 11:48:03) [MSC v.1928 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/02/08 15:55:25 WARN RapidsPluginUtils: RAPIDS Accelerator 23.12.2 using cudf 23.12.1.
24/02/08 15:55:25 WARN RapidsPluginUtils: RAPIDS Accelerator is enabled, to disable GPU support set `spark.rapids.sql.enabled` to false.
24/02/08 15:55:25 WARN RapidsPluginUtils: spark.rapids.sql.explain is set to `NOT_ON_GPU`. Set it to 'NONE' to suppress the diagnostics logging about the query placement on the GPU.
24/02/08 15:55:25 ERROR NativeDepsLoader: Could not load cudf jni library...
java.io.IOException: Error loading dependencies

应用程序随后打印堆栈跟踪并退出。

如果我在没有任何参数的情况下运行

pyspark
,我会得到 pyspark 提示,没有任何问题。我还能够使用 python 文件运行
spark-submit
并且执行时没有错误。

我在 Spark 安装的 jars 目录中使用

rapids-4-spark_2.12-23.12.2.jar
cudf-23.12.1.jar

运行

nvidia-smi
表示我正在使用:

  • NVIDIA GeForce RTX 3090
  • 驱动程序版本:551.23
  • CUDA版本:12.4

一个可能的问题是,我看到了一些对“GPU 发现脚本”的引用,但我找不到任何有关它的外观以及在哪里可以下载它的信息!

apache-spark pyspark nvidia
1个回答
0
投票

此处提供了 Spark-RAPIDS 支持的硬件和 Linux 发行版列表:https://nvidia.github.io/spark-rapids/docs/download.html

目前支持的操作系统包括 Ubuntu 20.04、Ubuntu 22.04、CentOS 7 或 Rocky Linux 8。Spark-RAPIDS 不支持 Windows。

但是,RAPIDS 在 Windows Subsystem for Linux 2 (WSL2) 下受支持。一些用户报告在 WSL2(非本机 Windows)下成功使用 Spark-RAPIDS,但据我所知,它并未得到官方支持。

© www.soinside.com 2019 - 2024. All rights reserved.