CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。
尝试通过 Google Colab 在 CUDA 中编译时出错
我有这个简单的结构: 类型定义结构{ 边缘* 边缘; 整数计数; }边缘列表; 我想要的只是在 Cuda 中的设备上分配空间。尤其。我已经有一个 EdgeList* allEdges ...
我最近将cuda从9.0升级到10.2,但是当我成功升级时,我的演示如下,将默认出现“RuntimeError: NCCL Error 2: unhandled system error”。 我不知道为什么,而且...
IntelliSense 对于“使用命名空间 nvcuda”显示“名称必须是命名空间名称”
大家好,实际上我正在 Cuda 上编程,并且正在测试一个简单的张量核心示例,但是我在 IntelliSense 方面遇到了问题,实际上它向我显示了此命令的错误(参见图片),并且我...
我有这个非常简单的代码来将两个矩阵与 Cuda Tensor Core 相乘 constexpr int M = 16; constexpr int N = 16; constexpr int K = 16; /* * 矩阵 A = M x N,B = N x K,C = M x K => ...
如何在cupy.RawKernel或cupy.RawModule中使用wmma::load_matrix_sync等WMMA函数? 有人可以提供一个最小的例子吗?
我正在尝试在采用图灵架构设计的 GPU 上使用 Tensor Core 来乘以 8x8 大小的块。为此,我使用 WMMA API 和大小为 16x16 的片段。我的假设是共享的
为什么每次我尝试输入大数据时,我的 CUDA 程序都会退出并显示代码 -1073741571?
这是我的程序代码。而且这个错误甚至不限于此代码,无论我编写什么程序,它都不会输入大数据。并不是说我必须对这么大的数据做任何事情......
这个问题的答案建议使用 %%globaltimer 寄存器来测量 CUDA 内核中经过的时间。我决定尝试一下: #定义 NS_PER_S 1000000000 __global__ 无效 sleepKernel() { ...
我可以从非nvcc编译的C++代码中调用CUDA运行时函数吗?
有什么方法可以调用 CUDA 运行时函数调用,例如 cudaMemcpy(...); 在 .cpp 文件中,使用常规 C++ 编译器编译?
Visual Studio 中的 Intellisense 找不到 CUDA 协作组命名空间
使用 CUDA 协作组时,我需要 #include 来访问operative_groups 命名空间。然而,智能感知无法看到这个命名空间,我...
我有时会在 CUDA 内核中看到以下共享内存声明,但我不确定它的含义: __extern__ 共享 T shmem[][SZ] SZ 是编译时常量。内核已启动...
rapids 无法导入 cudf:驱动程序初始化时出错:调用 cuInit 会导致 CUDA_ERROR_NO_DEVICE (100)
要安装RAPIDS,我已经安装了WSL2。 但导入cudf时仍然出现以下错误: /home/zy-wsl/miniconda3/envs/rapids-23.12/lib/python3.10/site-packages/cudf/utils/_ptxcompile...
CUDA 10 不支持 7 之后的 Gcc 版本 - Arch Linux 中的 Qt 错误
我正在运行 Arch Linux 并尝试在 Qt 中构建一个项目,但是,Qt 出现以下错误: /opt/cuda/include/crt/host_config.h:129: 错误: #error -- 不支持的 GNU 版本!海合会版本
内核 = r""" #包括 外部“C”__global__无效entry0(){ 返回 ; } ”“” 导入 cupy 作为 cp raw_module = cp.RawModul...
CUDA_VERSION 和 CUDART_VERSION 一定相同吗?
CUDA 驱动程序 API 定义 CUDA_VERSION(在 cuda.h 中),CUDA 运行时 API 定义 CUDART_VERSION(在 cuda_runtime_api.h 中)。然而 - CUDART_VERSION 没有定义为 CUDA_VERSION 而是直接...
哪些版本的 Pytorch、Tensorflow、MMCV-Full 和 CUDA 可在 conda 环境中工作?
哪些版本的 Pytorch、Tensorflow、MMCV-Full 和 CUDA 可在 conda 环境中工作?
我正在寻找一种方法来中断 cuda FFT 计算(如果它运行时间太长)。如何才能实现呢? 我在 API 中寻找一些超时设置,但没有找到这样的选项。当好...
CMake 错误:CMAKE_CUDA_ARCHITECTURES 如果设置则必须为非空
我正在使用 CMake 3.26 来配置使用 CUDA 的项目。其CMakeLists.txt是: cmake_minimum_required(版本3.25) 项目(foo CUDA) 我通过调用将其定向到特定的 CUDA 版本 c...
我有三个文件: 主程序 #包括 #包括 #include“kernels.cuh” __constant__ 浮动设备ConstVar; 无效setConstantValue(浮点值){