cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

为什么CUDA固定内存这么快?

当我使用固定内存进行 CUDA 数据传输时,我发现数据传输速度显着加快。在linux上,实现这一点的底层系统调用是mlock。从 mlock 的手册页来看,它...

回答 5 投票 0

Cmake 和包含第三方库的问题

我正在尝试为我的 CUDA 项目正确配置 Cmake。我正在使用第三方库 CGBN:https://github.com/NVlabs/CGBN/tree/master 和 Catch2 进行单元测试。 基本上我正在尝试构建...

回答 1 投票 0

同一块中的扭曲如何发散

我有点困惑 Warps 如何可能发散并需要通过 __syncthreads() 函数进行同步。块中的所有元素以 SIMT 方式处理相同的代码。怎么会……

回答 1 投票 0

尽管使用了 volatile、threadfence 并禁用 L1 缓存,但块之间的全局内存访问不一致

在以下构建树的最小可重现示例中,当使用多个块时,根据其位置插入实体(因此是四叉树/八叉树的一维版本),一些

回答 1 投票 0

CUDA 递归的奇怪行为

在下面的最小可重现示例中,当 device_func 中的递归处于活动状态时,__synchthreads() 屏障将被忽略,并且在调试时,断点 2 发生在断点 1 之前。如果

回答 1 投票 0

不断出现错误:“nvidia-smi”未被识别为内部或外部命令、可运行程序或批处理文件

免责声明:我对Python不是很有经验 我一直在尝试设置 SAM(通过元对任何模型进行分段),但在安装 pytorch 时遇到了问题。我已经关注了国家...

回答 1 投票 0

如何使用推力和CUDA流将内存从主机异步复制到设备

我想使用推力将内存从主机复制到设备,如下所示 推力::主机向量 h_vec(1 << 28); thrust::device_vector d_vec(1 << 28); thrust::c...

回答 2 投票 0

CUDA Thrust Kernels 可以在多个流上并行运行吗?

我正在尝试在不同的 CUDA 流上并行启动推力::填充两个不同的设备向量。然而,当我查看 NSight Systems 中的内核启动时,它们似乎是串行的......

回答 1 投票 0

cudaMalloc() 使用 slurm 失败并出现未知错误,但使用 mpirun 可以正常工作

我正在运行一个带有几个 GPU 节点的 slurm 控制器。所有节点共享安装了 intel mpi 的 $HOME 目录。使用 cudaMalloc() 的简单 mpi 版本的 cuda 程序在运行时可以正常工作

回答 1 投票 0

CUBLAS 与行主数据的矩阵乘法

我在这里阅读了一些相关的文章,并成功使用 cuBLAS 进行行主矩阵乘法: A*B(列专业)= B*A(行专业) 我写了一个包装器来执行此操作,以便我可以传递行

回答 1 投票 0

导入 Keras 时隐藏警告和/或错误

我的脚本导入以下 Keras 模块: 从 keras.models 导入顺序 从 keras.layers 导入密集,输入 从 keras.utils 导入到_categorical 每次都会出现相同的警告/错误...

回答 1 投票 0

在没有实际 Tensor Core 的情况下如何运行 Tensor Core 指令?

我正在使用 CUDA 的 WMMA API 在 GTX 1660 Ti 上乘以片段。该 GPU 没有 Tensor Core,但是当我查看为我的代码生成的 SASS 时,我看到 HMMA.1688.F32 指令,它们是

回答 1 投票 0

cuobjdump 不发出 PTX 算术指令

为什么 cuobjdump 不发出下面的 PTX mul 指令? nvcc本身优化了cubin输出吗?结果是编译时计算的吗?如果是这样,对于这个最简单的情况,nvcc 可以合理地满足...

回答 1 投票 0

如何基于谓词对 warp 中的数据进行分区,以便所有保留项都是连续的

我有一个充满数据的扭曲,其中一些我想保留,一些我想丢弃。 我想将保留项目存储在连续的内存中。 例如,假设我只想保留素数 输入...

回答 1 投票 0

MatX 中有关共享变量初始化的构建问题

我正在尝试构建 MatX 并将其安装到我的 Linux 计算机上。 我正在按照此处找到的说明进行操作。 除非我运行 make -j 命令,否则我会得到以下跟踪: /主页//文档/

回答 1 投票 0

如何使用两个`u32`缓冲区在`u64`上正确模拟`atomicAdd`?

我正在尝试在 u64 上进行原子操作。但由于不支持,该数字存储在两个 u32 缓冲区中 问题是我不确定如何正确执行atomicAdd来模拟它的效果

回答 1 投票 0

评估 SGEMM 的 CUDNN 问题

我使用 cudnn 测试 sgemm 的 C[stride x stride] = A[stride x stride] x B[stride x stride] 下面, 配置 显卡:T1000/SM_75 安装了 cuda-12.0.1/driver-535(通过 ubun 上的 multiverse 存储库...

回答 1 投票 0

从 cugraph 计算网络

我一直在Python中使用cugraph和nx_cugraph,但是我正在努力计算图中连接组件的数量。我收到了很多错误。 计算...

回答 1 投票 0

CUDA:在 O(1) 时间内使用扭曲中的所有线程设置第 N 个位索引

我有一个 32 位位掩码,其中包含一组有效项目。 我想从该位掩码中提取有效条目的索引作为列表。 假设我通过选票获得了位掩码,并且我想...

回答 1 投票 0

torch.cuda.is_available() 即使在使用 CUDA 安装 PyTorch 后也会返回 False

我最近在我的机器上安装了支持 CUDA 的 PyTorch,但是当我运行 torch.cuda.is_available() 时,它返回 False。我使用 nvidia-smi 验证了我的 GPU 设置,看来我的系统

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.