cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

关于 __cvta_generic_to_shared 的困惑

Nvidia Ampere GPU 支持功能:从全局内存到共享内存的 cp 异步绕过 L1 和寄存器文件。 对应的PTX核心是cp.async。 为什么需要 __cvta_generic_to_shared 来转换共享...

回答 1 投票 0

PTX 程序集加载/存储中寄存器周围括号的含义

下面是由 Triton 编译器生成的明显合法的 PTX 汇编代码。我对加载和存储指令中使用的 { %r1 } 和 { %r2 } 感到困惑。根据 PTX ISA 文档,它...

回答 1 投票 0

将RGB转换为灰度问题:从cuda设备检索数组被清零

我正在尝试将 3x3 RGB“图像”转换为灰度。该图像只是一个 3d 数组。您可以将其视为二维图像,每个像素都有一个 1x3 的 RGB 值数组。 为了做到这一点,我

回答 1 投票 0

nvidia-smi 和 nvidia x 服务器设置之间的顺序不同

当我运行命令 nvidia-smi 时,我得到以下两个按总线 ID 排序的 GPU: 对于 GPU 0,00000000:0A:00.0 对于 GPU 1,00000000:41:00.0 但是,当我运行 NVIDIA X 服务器设置时,我...

回答 2 投票 0

如何修改此命令来安装特定的cuDNN和torch版本“apt install libcudnn8”

这是我的系统: 没有可用的 LSB 模块。 发行商 ID:Ubuntu 说明:Ubuntu 22.04.2 LTS 发布时间:22.04 代号: 杰米 我想安装 cudnn 8.7.0 - 我认为正确

回答 2 投票 0

多个实例重载函数具有 C 链接

按照 CUDA 示例中有关 C++ 集成的示例代码,我正在编写调用 .cu 文件中的 CUDA 代码的包装器函数。 在该文件中,我有一个初始化 CUDA 上下文的函数...

回答 2 投票 0

我应该链接什么:实际的 CUDA 驱动程序库还是驱动程序库存根?

CUDA 发行版(至少在 Linux 上)有一个“存根库”目录,其中包含 libcuda.so 文件 - 与实际 NVIDIA 驱动程序库的名称相同。 当构建一个 C...

回答 1 投票 0

对`cuMemAlloc_v2'的未定义引用

我需要修改linux rdma-core驱动,添加一些cuda相关的功能;首先,cuMemAlloc。 我已更改驱动程序中的 CMake 文件以包含 cuda.h 头文件。但是当我编译

回答 1 投票 0

Windows 上的 CUDA 编译问题,Cmake 错误:找不到 CUDA 工具集

所以我已经在 Linux 上成功开发了 CUDA 程序,但我也想支持 Windows 平台。然而,我一直在努力正确编译它。我用 : Windows 10

回答 6 投票 0

将指针从 C++ 传输到与主机和设备内存兼容的 Python

我有一个Python函数,它可以在CPU(使用Numpy)和GPU(使用CuPy)上运行,我想使用Python C API从C++代码激活它。 我找不到合适的解决方案来解决这样的问题...

回答 1 投票 0

CUDA 中的平铺 softmax 操作

我正在自学一些 CUDA,并且尝试在沿第二维大小为 N x M 的 2D 张量上实现简单的 softmax 操作。我已经成功编写了一个简单的解决方案,适用于...

回答 1 投票 0

在 nvidia gpu 上,__hmul 使用 fp32 核心吗?

参考https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-deep/ ,每个SM具有三种类型的cuda核心,例如int32核心/fp32核心/fp64核心。如果数据类型是int32/fp32/fp64,我想...

回答 1 投票 0

数组结构与结构数组

从我在这里读到的一些评论来看,对于像 CUDA 这样的并行实现,最好使用数组结构 (SoA),而不是结构数组 (AoS)。如果这是真的,有人可以前...

回答 3 投票 0

cudaGraphInstantiateFlagUseNodePriority的行为

我对cudaGraphInstantiateFlagUseNodePriority的理解是优先考虑内核调用。 也就是说,我们在 cudaGraph 中有 3 个独立的内核,第一、第二和第三,让每个内核等待...

回答 1 投票 0

如何从ubuntu中完全删除cuda?

我有ubuntu 18.04,不小心安装了cuda 9.1来运行Tensorflow-gpu,但似乎tensorflow-gpu需要cuda 10.0,所以我想先通过执行删除cuda: martin@nlp-server:~$ su...

回答 4 投票 0

在cuda的nvcc编译器中使用C++20

我正在尝试使用 库中的 std::countr_zero() 函数,但我不确定应该如何配置我的 nvcc 编译器,因为我确定它没有使用 C++ 20版本。

回答 1 投票 0

无法加载库 cudnn_cnn_infer64_8.dll。错误代码 126

无法加载库 cudnn_cnn_infer64_8.dll。错误代码 126 请确保 cudnn_cnn_infer64_8.dll 在您的库路径中! 当我尝试将 TensorFlow 与 GPU 结合使用时,我不断收到此错误,我已经

回答 2 投票 0

根据 CUDA 文档改编的内核给出了错误的结果

我从这里复制了内核并添加了一个额外的参数。 但是,它似乎没有给出正确的结果。 没有转置: 结果: 5 17 29 41 17 61 105 14...

回答 1 投票 0

docker上的cuda版本和PC上的cuda版本不一样有关系吗?

我的电脑上安装了cuda-10.1。 目前cuda的最新版本是cuda11.0。 我正在考虑使用 docker cuda 版本 11.0,而不更改我的 PC 上的 cuda 版本。 在这种情况下,会...

回答 2 投票 0

为什么他们只填充一个共享内存?

使用全局内存的合并读取来优化跨步访问的处理 上面的链接说: __global__ void coalescedMultiply(float *a, float *c, int M) { __shared__ 浮动 aTile[

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.