cublas 相关问题

NVIDIA CUDA基本线性代数子程序(cuBLAS)库是完整标准BLAS库的GPU加速版本,可与支持CUDA的GPU一起使用。

错误:找不到满足 nvidia-cublas-cu12==12.1.3.1 要求的版本(来自版本:0.0.1.dev5)

我在 MacOS 芯片 Apple M1 上运行项目时遇到问题。 当我安装项目需求文件(pip install -rrequirements.txt)中列出的依赖项时,它会抛出这个错误...

回答 1 投票 0

如何修复 llama_cpp_python 的 GPU 错误?

这是我将 n_gpu_layer 设置为 1 时的答案 要学习Python,您可以考虑以下选项: 在线课程:Coursera、edX、Codecadem 等网站♠♦♥◄!▬$▲▅ ▅☻↑↨►☻层↨ ▼♦$§→↓ ♠♥§ ▬▅↔→...

回答 1 投票 0

如何使用诗歌安装 llama-cpp-python 和 cuBLAS?

我可以使用 pip 安装 llama cpp 和 cuBLAS,如下所示: CMAKE_ARGS="-DLLAMA_CUBLAS=on" FORCE_CMAKE=1 pip install llama-cpp-python 但是,我不知道如何用 cuBLAS 安装它,当...

回答 1 投票 0

我如何知道 koboldcpp 是否正在使用我的 GPU?

我在 Ubuntu 18.04 上使用以下命令从源代码编译了 koboldcpp: git 克隆 https://github.com/LostRuins/koboldcpp cd 狗头人 使-j10 koboldcpp_cublas LLAMA_OPENBLAS = 1 LLAMA_CUBLAST = 1 但当它...

回答 1 投票 0

在 docker 容器内运行 llama-cpp-python 时没有 GPU 支持

我正在尝试按照安装文档但在 docker 容器内运行 llama cpp 的 llama 索引。 按照此存储库安装 llama_cpp_python==0.2.6。 Dockerfile # 使用

回答 1 投票 0

编译CUDA示例程序

我有一个非常简单的CUDA程序,但拒绝编译 这是main.cpp #包括 #包括 #include“/opt/cuda/targets/x86_64-linux/include/cuda_runtime.h&qu...

回答 1 投票 0

‘/tmp/tmpxft_0000120b_0000000-10_my_program”中对‘cublasCreate_v2’的未定义引用

我尝试在NVIDIA Tesla P100显卡(Ubuntu版本16.04)上使用CUDA 9.0工具包编译代码,代码中使用了CUBLAS库。为了编译,我使用了以下com...

回答 1 投票 0

CUBLAS 与行主数据的矩阵乘法,无需转置

我目前正在尝试在 GPU 上使用 CUBLAS 实现矩阵乘法。 它适用于方阵和某些大小的输入,但对于其他输入,最后一行不会返回(并且

回答 1 投票 0

cublas 使用 cublas.lib 直接进行 Fortran c 绑定

我正在尝试设置一个接口来在 Fortran 中使用 cublas.lib,而不需要任何单独的 C 代码。我看过一些这样的例子,并尝试复制这些例子,但遇到了麻烦。 这两个

回答 1 投票 0

ValueError:在系统路径中找不到 libcublas.so.*[0-9]

我正在尝试在我的 Django Rest 框架项目中导入和使用 ultralytics 库,我使用诗作为我的依赖管理器,我使用诗添加 ultralytics 安装了 ultralytics 并尝试 IM...

回答 3 投票 0

为什么 magma_dgemm 函数不使用 V100 GPU 上的张量核心?

我在 V100 和 H100 GPU 上运行 MAGMAtesting_dgemm 代码。通过 Nsight Systems,我发现 V100 上的代码不使用张量核心,但 H100 上的代码则使用张量核心。 V100结果: H100 结果: ...

回答 1 投票 0

将 cublasHandle_t 传递给用户函数时出现问题

我正在使用 CUDA 并行化特定的谱聚类算法,并且遇到了一个奇怪的错误。在这个阶段,我仍在测试我打算并行的每一个步骤......

回答 1 投票 0

子矩阵乘法

我需要进行更多次子矩阵乘法(来自相同的两个矩阵),其中子矩阵的维度和偏移量在每次迭代时都会发生变化。你知道合适的 cublas 函数吗...

回答 0 投票 0

OSError:未定义符号:cublasLtGetStatusString,版本 libcublasLt.so.11 仅在 tmux 终端中

我在终端中运行一个 shell 脚本,一切正常,但是在进入 tmux 终端,并在相同的 conda 环境中运行相同的脚本后,我得到了这个错误: 操作系统错误:/

回答 0 投票 0

cublas地址超出特定矩阵大小的范围。

当我运行以下代码来计算矩阵乘法y = X * B。#include #include #include #include "cublas_v2.h" using ...

回答 1 投票 0

使用OpenACC和cublasDgemv将g ++与pgi编译的代码链接时出现内存错误

为了在带有g ++的应用程序中将我的GPU与OpenACC和cublas一起使用,我设置了一个小测试示例。为此,我创建了以下文件:main.cpp pgiCudaCode.h pgiCudaCode.cpp我的...

回答 1 投票 0

如何在CUDA中加速saxpy的列表

我有一个矩阵和一个长度为BATCH_SIZE的三元组列表:float matrix [3000] [3000](float向量[3000],uint32_t索引,float alpha)对于每个三元组,我使用以下内容执行一个saxpy:matrix [。 ..

回答 1 投票 -1

为什么这个矩阵乘法慢(Turing GPU)?

根据规格,使用Tensor Core的半精度Nvidia RTX 2080 Ti应该能够达到107.6 TeraFLOPS。但是,在最佳条件下(非常大的矩阵,其大小为...

回答 1 投票 -1

CUDA内核可以调用cublas函数吗?

我知道这听起来很奇怪,但是这是我的情况:我需要做一个矩阵矩阵乘法(A(n * k)* B(k * n)),但是我只需要对角元素进行求值输出矩阵。我搜索了...

回答 3 投票 16

为什么cublas复制算法在cuda中这么快?

我编写了将输入向量复制到输出向量的内核。但是与cublascopy API相比,性能还不够。对于1M个元素,cublasScopy比我的内核快100倍。...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.