CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。
我想知道,为什么需要在以下循环中使用网格步幅: for (int i = 索引; i < ITERATIONS; i =+ stride) { C[i] = A[i] + B[i]; } Where we set stride and index to:
我正在为 Tree Reduction 编写一个简单的内核,它将 blockDim.x 元素的多个切片复制到每个块的共享内存数组中。 每个块映射的切片数量是一个com...
我最初在尝试编译包含 的代码时询问了一个错误,但通过添加标志 -std=c++14 解决了这个问题,如 nvcc -std=c++14 test1.cu 中所示。然而,现在我明白了...
Cuda 是否提供了一种使用主机上的可分页内存在不同设备之间获得异步性的方法? (请注意,这并不是关于阻止 cudaMemcpyAsync 的无休止的问题
我有一个问题,在 2D 空间 (x,y) 中我有很多不同大小的点。具有结构 (x,y, size) 的数组表示此空间。我想将此空间缩减采样到某个特定的...
Docker CUDA问题(与系统CUDA版本不同)[重复]
我正在 CUDA 12.2 上开发代码,但是我必须在 CUDA 10.2 上运行脚本 因此,我决定使用带有 cuda 10.2 的 docker 映像(启用 GPU) 创建如下容器后 码头工人拉安德鲁斯...
我可以调用什么实用程序/二进制文件来确定 nVIDIA GPU 的计算能力?
假设我有一个安装了单个 GPU 的系统,并且假设我还安装了最新版本的 CUDA。 我想确定我的 GPU 的计算能力是多少。如果我可以编译代码,...
CUDA 和 MSVC 的编译错误:来自 <atomic> 未定义的标识符
我正在开发一个使用 cl 作为主机编译器的 CUDA 项目(Visual Studio 2019,MSVC v14.29.30133)。我遇到了与 CUDA 标准库中的 C++11 标头相关的错误
无法在 Google Colab 上安装 CuPy 12.2.0
我想在 Colab 上使用 CuPy 12.2.0,但 Colab 上安装的默认 CuPy 版本是 11.0.0。 我尝试了多种方法安装12.2.0版本,均失败。 当我尝试安装 cupy wit 时...
尝试将 CUDA 版本从 12.2 降级到 11.8 时,无法再在 Ubuntu 中更新 NVIDIA GPU 驱动程序
我使用的是 Ubuntu 22.04 和 NVIDIA 显卡型号 Geforce RTX 3050。我的系统安装了 NVIDIA 535.129.03 驱动程序和 CUDA 版本 12.2。 我有一个项目涉及使用 TensorFlo...
在Google Colab中选择T4 GPU运行时后,我尝试运行以下代码: 从 numba 导入 cuda 将 numpy 导入为 np B = np.random.randint(0, 5, 大小=(10, 10)) B_device = cuda。
虽然我编写 CUDA 内核已经有一段时间了,但我还没有使用动态并行性 (DP)。我遇到了一项我认为可能适合的任务;然而,我想要的方式...
我有一个非常简单的CUDA程序,但拒绝编译 这是main.cpp #包括 #包括 #include“/opt/cuda/targets/x86_64-linux/include/cuda_runtime.h&qu...
我目前正在学习如何编写快速的 CUDA 内核。我实现了一个平铺矩阵乘法(块大小 32x32),它仅从/向全局内存进行合并读取/写入,并且没有存储组配置...
我正在尝试使用 Torch 和 CUDA。使用 torch::from_blob() 到目前为止,我能够执行以下操作: #包括 #包括 #包括 #inc...
‘/tmp/tmpxft_0000120b_0000000-10_my_program”中对‘cublasCreate_v2’的未定义引用
我尝试在NVIDIA Tesla P100显卡(Ubuntu版本16.04)上使用CUDA 9.0工具包编译代码,代码中使用了CUBLAS库。为了编译,我使用了以下com...
我正在尝试使用此存储库安装特定版本的 nvidia 驱动程序: https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rehl8.repo 在运行 nv 的 docker 容器中...
我正在尝试为埃及的 CUDA 中的代码生成调用图,但通常的方法似乎不起作用(因为 nvcc 没有任何标志可以执行与 -fdump-rtl 相同的操作-展开...
据我所知,Cuda流和memorycpyasync需要我们将不同的内核、内存操作标记到不同的流中,以使gpu操作与cpu操作并发。 布...
我遇到过一个具有多个声明的代码库,并且只有一个 CUDA 内核密度(...) 模板 __global__ void Density<5>(int width, int height); 模板 __global__ v...