CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。
当我使用固定内存进行 CUDA 数据传输时,我发现数据传输速度显着加快。在linux上,实现这一点的底层系统调用是mlock。从 mlock 的手册页来看,它...
我正在尝试为我的 CUDA 项目正确配置 Cmake。我正在使用第三方库 CGBN:https://github.com/NVlabs/CGBN/tree/master 和 Catch2 进行单元测试。 基本上我正在尝试构建...
我有点困惑 Warps 如何可能发散并需要通过 __syncthreads() 函数进行同步。块中的所有元素以 SIMT 方式处理相同的代码。怎么会……
尽管使用了 volatile、threadfence 并禁用 L1 缓存,但块之间的全局内存访问不一致
在以下构建树的最小可重现示例中,当使用多个块时,根据其位置插入实体(因此是四叉树/八叉树的一维版本),一些
在下面的最小可重现示例中,当 device_func 中的递归处于活动状态时,__synchthreads() 屏障将被忽略,并且在调试时,断点 2 发生在断点 1 之前。如果
不断出现错误:“nvidia-smi”未被识别为内部或外部命令、可运行程序或批处理文件
免责声明:我对Python不是很有经验 我一直在尝试设置 SAM(通过元对任何模型进行分段),但在安装 pytorch 时遇到了问题。我已经关注了国家...
我想使用推力将内存从主机复制到设备,如下所示 推力::主机向量 h_vec(1 << 28); thrust::device_vector d_vec(1 << 28); thrust::c...
CUDA Thrust Kernels 可以在多个流上并行运行吗?
我正在尝试在不同的 CUDA 流上并行启动推力::填充两个不同的设备向量。然而,当我查看 NSight Systems 中的内核启动时,它们似乎是串行的......
cudaMalloc() 使用 slurm 失败并出现未知错误,但使用 mpirun 可以正常工作
我正在运行一个带有几个 GPU 节点的 slurm 控制器。所有节点共享安装了 intel mpi 的 $HOME 目录。使用 cudaMalloc() 的简单 mpi 版本的 cuda 程序在运行时可以正常工作
我在这里阅读了一些相关的文章,并成功使用 cuBLAS 进行行主矩阵乘法: A*B(列专业)= B*A(行专业) 我写了一个包装器来执行此操作,以便我可以传递行
我的脚本导入以下 Keras 模块: 从 keras.models 导入顺序 从 keras.layers 导入密集,输入 从 keras.utils 导入到_categorical 每次都会出现相同的警告/错误...
在没有实际 Tensor Core 的情况下如何运行 Tensor Core 指令?
我正在使用 CUDA 的 WMMA API 在 GTX 1660 Ti 上乘以片段。该 GPU 没有 Tensor Core,但是当我查看为我的代码生成的 SASS 时,我看到 HMMA.1688.F32 指令,它们是
为什么 cuobjdump 不发出下面的 PTX mul 指令? nvcc本身优化了cubin输出吗?结果是编译时计算的吗?如果是这样,对于这个最简单的情况,nvcc 可以合理地满足...
如何基于谓词对 warp 中的数据进行分区,以便所有保留项都是连续的
我有一个充满数据的扭曲,其中一些我想保留,一些我想丢弃。 我想将保留项目存储在连续的内存中。 例如,假设我只想保留素数 输入...
我正在尝试构建 MatX 并将其安装到我的 Linux 计算机上。 我正在按照此处找到的说明进行操作。 除非我运行 make -j 命令,否则我会得到以下跟踪: /主页//文档/
如何使用两个`u32`缓冲区在`u64`上正确模拟`atomicAdd`?
我正在尝试在 u64 上进行原子操作。但由于不支持,该数字存储在两个 u32 缓冲区中 问题是我不确定如何正确执行atomicAdd来模拟它的效果
我使用 cudnn 测试 sgemm 的 C[stride x stride] = A[stride x stride] x B[stride x stride] 下面, 配置 显卡:T1000/SM_75 安装了 cuda-12.0.1/driver-535(通过 ubun 上的 multiverse 存储库...
我一直在Python中使用cugraph和nx_cugraph,但是我正在努力计算图中连接组件的数量。我收到了很多错误。 计算...
CUDA:在 O(1) 时间内使用扭曲中的所有线程设置第 N 个位索引
我有一个 32 位位掩码,其中包含一组有效项目。 我想从该位掩码中提取有效条目的索引作为列表。 假设我通过选票获得了位掩码,并且我想...
torch.cuda.is_available() 即使在使用 CUDA 安装 PyTorch 后也会返回 False
我最近在我的机器上安装了支持 CUDA 的 PyTorch,但是当我运行 torch.cuda.is_available() 时,它返回 False。我使用 nvidia-smi 验证了我的 GPU 设置,看来我的系统