cuda 相关问题

CUDA是Nvidia GPU（图形处理单元）的并行计算平台和编程模型。 CUDA通过各种编程语言，库和API为Nvidia GPU提供了一个接口。

为什么CUDA固定内存这么快？

当我使用固定内存进行 CUDA 数据传输时，我发现数据传输速度显着加快。在linux上，实现这一点的底层系统调用是mlock。从 mlock 的手册页来看，它...

c++ c linux cuda

回答 5 投票 0

Cmake 和包含第三方库的问题

我正在尝试为我的 CUDA 项目正确配置 Cmake。我正在使用第三方库 CGBN：https://github.com/NVlabs/CGBN/tree/master 和 Catch2 进行单元测试。基本上我正在尝试构建...

c++ cmake cuda

回答 1 投票 0

同一块中的扭曲如何发散

我有点困惑 Warps 如何可能发散并需要通过 __syncthreads() 函数进行同步。块中的所有元素以 SIMT 方式处理相同的代码。怎么会……

parallel-processing cuda synchronization gpu

回答 1 投票 0

尽管使用了 volatile、threadfence 并禁用 L1 缓存，但块之间的全局内存访问不一致

在以下构建树的最小可重现示例中，当使用多个块时，根据其位置插入实体（因此是四叉树/八叉树的一维版本），一些

cuda nvidia

回答 1 投票 0

CUDA 递归的奇怪行为

在下面的最小可重现示例中，当 device_func 中的递归处于活动状态时，__synchthreads() 屏障将被忽略，并且在调试时，断点 2 发生在断点 1 之前。如果

cuda nvidia

回答 1 投票 0

不断出现错误：“nvidia-smi”未被识别为内部或外部命令、可运行程序或批处理文件

免责声明：我对Python不是很有经验我一直在尝试设置 SAM（通过元对任何模型进行分段），但在安装 pytorch 时遇到了问题。我已经关注了国家...

windows pytorch cuda driver nvidia

回答 1 投票 0

如何使用推力和CUDA流将内存从主机异步复制到设备

我想使用推力将内存从主机复制到设备，如下所示推力::主机向量 h_vec(1 << 28); thrust::device_vector d_vec(1 << 28); thrust::c...

c++ asynchronous cuda thrust

回答 2 投票 0

CUDA Thrust Kernels 可以在多个流上并行运行吗？

我正在尝试在不同的 CUDA 流上并行启动推力::填充两个不同的设备向量。然而，当我查看 NSight Systems 中的内核启动时，它们似乎是串行的......

asynchronous concurrency cuda gpu thrust

回答 1 投票 0

cudaMalloc() 使用 slurm 失败并出现未知错误，但使用 mpirun 可以正常工作

我正在运行一个带有几个 GPU 节点的 slurm 控制器。所有节点共享安装了 intel mpi 的 $HOME 目录。使用 cudaMalloc() 的简单 mpi 版本的 cuda 程序在运行时可以正常工作

google-cloud-platform cuda slurm intel-mpi

回答 1 投票 0

CUBLAS 与行主数据的矩阵乘法

我在这里阅读了一些相关的文章，并成功使用 cuBLAS 进行行主矩阵乘法： A*B（列专业）= B*A（行专业）我写了一个包装器来执行此操作，以便我可以传递行

c++ cuda cublas

回答 1 投票 0

导入 Keras 时隐藏警告和/或错误

我的脚本导入以下 Keras 模块：从 keras.models 导入顺序从 keras.layers 导入密集，输入从 keras.utils 导入到_categorical 每次都会出现相同的警告/错误...

python tensorflow keras cuda

回答 1 投票 0

在没有实际 Tensor Core 的情况下如何运行 Tensor Core 指令？

我正在使用 CUDA 的 WMMA API 在 GTX 1660 Ti 上乘以片段。该 GPU 没有 Tensor Core，但是当我查看为我的代码生成的 SASS 时，我看到 HMMA.1688.F32 指令，它们是

cuda gpu nvidia hardware

回答 1 投票 0

cuobjdump 不发出 PTX 算术指令

为什么 cuobjdump 不发出下面的 PTX mul 指令？ nvcc本身优化了cubin输出吗？结果是编译时计算的吗？如果是这样，对于这个最简单的情况，nvcc 可以合理地满足...

cuda ptx

回答 1 投票 0

如何基于谓词对 warp 中的数据进行分区，以便所有保留项都是连续的

我有一个充满数据的扭曲，其中一些我想保留，一些我想丢弃。我想将保留项目存储在连续的内存中。例如，假设我只想保留素数输入...

cuda gpu partitioning gpu-warp

回答 1 投票 0

MatX 中有关共享变量初始化的构建问题

我正在尝试构建 MatX 并将其安装到我的 Linux 计算机上。我正在按照此处找到的说明进行操作。除非我运行 make -j 命令，否则我会得到以下跟踪： /主页//文档/

c++ ubuntu makefile cuda g++

回答 1 投票 0

如何使用两个`u32`缓冲区在`u64`上正确模拟`atomicAdd`？

我正在尝试在 u64 上进行原子操作。但由于不支持，该数字存储在两个 u32 缓冲区中问题是我不确定如何正确执行atomicAdd来模拟它的效果

cuda atomic uint64 webgpu wgsl

回答 1 投票 0

评估 SGEMM 的 CUDNN 问题

我使用 cudnn 测试 sgemm 的 C[stride x stride] = A[stride x stride] x B[stride x stride] 下面，配置显卡：T1000/SM_75 安装了 cuda-12.0.1/driver-535（通过 ubun 上的 multiverse 存储库...

cuda blas cudnn

回答 1 投票 0

从 cugraph 计算网络

我一直在Python中使用cugraph和nx_cugraph，但是我正在努力计算图中连接组件的数量。我收到了很多错误。计算...

python cuda networkx

回答 1 投票 0

CUDA：在 O(1) 时间内使用扭曲中的所有线程设置第 N 个位索引

我有一个 32 位位掩码，其中包含一组有效项目。我想从该位掩码中提取有效条目的索引作为列表。假设我通过选票获得了位掩码，并且我想...

cuda gpu bit-manipulation

回答 1 投票 0

torch.cuda.is_available() 即使在使用 CUDA 安装 PyTorch 后也会返回 False

我最近在我的机器上安装了支持 CUDA 的 PyTorch，但是当我运行 torch.cuda.is_available() 时，它返回 False。我使用 nvidia-smi 验证了我的 GPU 设置，看来我的系统

tensorflow pytorch cuda driver nvidia

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.