cuda 相关问题

CUDA是Nvidia GPU（图形处理单元）的并行计算平台和编程模型。 CUDA通过各种编程语言，库和API为Nvidia GPU提供了一个接口。

如何使用软件实现在没有 GPU 的情况下运行 CUDA？

我的笔记本电脑没有 nVidia 显卡，我想在 CUDA 上工作。该网站称 CUDA 也可以在非 cuda 硬件上以仿真模式使用。但是当我尝试安装 CUDA 驱动程序时

cuda nvidia

回答 5 投票 0

我应该如何让 CMake 为我的内核创建 PTX 文件

我正在使用 CUDA 代码构建一个项目，使用最近的 CMake，它具有内在的 CUDA 支持（版本 >= 3.8 或更高版本，如果需要）。我如何告诉 CMake（也）为我的各种

build cmake cuda ptx

回答 3 投票 0

在 Docker 容器中使用 Python 版本 3.11 安装 PyTorch

我在PyTorch官方页面上看到PyTorch支持Python版本3.8到3.11。当我实际尝试在 Python 3.11 Docker 映像中安装 PyTorch + CUDA 时，似乎无法找到 CUDA 驱动器...

python docker pytorch cuda python-3.11

回答 1 投票 0

python distutils可以编译CUDA代码吗？

我有 CUDA 代码，我想使用 distutils 为 Python 构建动态库。但即使安装了“nvcc”编译器，distutils 似乎也无法识别“.cu”文件。不知道如何获得...

python cuda

回答 2 投票 0

PTX (8.4) 不涵盖较小形状的 WMMA 指令吗？

我想使用 SASS 指令，从 CUDA 12.4 开始，该指令无法通过 PTX 指令使用（AFAICT）。也就是说，假设它是： HMMA.16816.F16 - 半精度的扭曲宽度矩阵乘法加法...

cuda nvidia ptx cuda-wmma

回答 1 投票 0

PTX (8.3) 不涵盖较小形状的 WMMA 指令吗？

我想使用 SASS 指令，但 (AFAICT) 无法通过 PTX 指令使用。即，假设它是： HMMA.16816.F16 - 半精度数据的扭曲宽度矩阵乘法加法，具有 sha...

cuda nvidia ptx cuda-wmma

回答 1 投票 0

CUDA 汇编指令

反汇编 CUDA 代码似乎是一种非常有用的工具，即使在某些情况下不是唯一的工具，也可以用来了解编译器的行为以及性能指标。我会说不幸的是......

assembly cuda

回答 1 投票 0

是否有相当于 std::numeric_limits 的 CUDA？

我想确定 CUDA 内核中的最大 int 值。不幸的是我找不到任何类似于 CUDA 的 std::numeric_limits 的东西。尝试使用 ::std 函数会导致错误： ...

c++ cuda

回答 3 投票 0

CUDA 内核，用于查找一维数组中大于特定阈值的最小和最大索引值

我正在尝试编写一个 CUDA 内核，用于查找一维数组中大于特定阈值的最小和最大索引值下面是 CPU 中执行相同操作的伪代码 int min_index ...

performance cuda gpgpu reduction

回答 1 投票 0

共享内存访问 CUDA 中的垃圾值

我正在尝试使用 CUDA 实现 2D Navier-Stokes 求解器。我正在使用雅可比方法来求解差分方程组。我将代码分成 4x4 块，由 16x16 组成......

cuda gpu-shared-memory

回答 1 投票 0

VS2022“无法加载文件或程序集”Emgu.CV，版本=4.7.0..定位的程序集的清单定义与程序集引用不匹配

在将 EmguCV 4.7.0 库文件替换为 4.6.0 后，我在 C# Windows 窗体应用程序中运行时遇到此错误。我降级是因为 4.7.0 还不支持 CUDA。我做到了...

c# winforms opencv cuda emgucv

回答 1 投票 0

atomicAdd() 显示错误：没有重载函数“atomicAdd”的实例对参数列表进行数学计算

所以，我必须使用 CUDA 的共享内存来分析这个矩阵向量乘法，但是，我在 Visual Studio 2022 上执行代码时遇到问题，我收到错误“no insta...

c++ matrix vector cuda matrix-multiplication

回答 1 投票 0

所有 IEE754 类型的 CUDA 中的 std::floating_point 概念

我想知道 CUDA 是否提供了类似于 std::floating_point 的概念，但包括所有 IEE754 类型，例如__一半。我在下面提供了一个示例代码来测试 __half 模板的乐趣...

c++ cuda precision c++-concepts half-precision-float

回答 1 投票 0

cuda 中自定义结构的内存分配

我有这些结构： typedef 结构边缘 { 开始；打算; } 边缘; 类型定义结构{ 整数度； int 名称；边缘*边缘；顶点；在我的主要功能中，我有一个初始

struct parallel-processing cuda

回答 1 投票 0

CUDA 中的全局任意长度整数增量

在我的 CUDA 程序中，每个线程都会递增全局 (__device__) 整数值并将其用于进一步计算 - 每个线程都需要自己的唯一值。我已将atomicAdd 与本地值一起使用

cuda gpu-atomics

回答 1 投票 0

推力收集/过滤

我想要做的是在向量上创建一个过滤器，以便它删除未通过谓词测试的元素；但不太确定我该怎么做。我再次评估输入向量中的每个元素...

cuda thrust

回答 1 投票 0

如何让cmake在编译yolo（darknet）时启用cuda？

我目前正在使用 cmake-gui 编译 yolo darknet，网址为 https://github.com/AlexeyAB/darknet.git。但是，它不会启用 cuda，并且我遇到了其他一些奇怪的问题。这些包括当我...

cmake cuda visual-studio-2017 cudnn yolo

回答 4 投票 0

使用cuda __shared__内存进行图像过滤的正确方法

我正在编写用于图像过滤的 CUDA C++ 代码。 CUDA 将图像数据分成块以进行并行处理。对于常规的像素级处理当然速度很快。然而在图像滤镜中...

image-processing cuda gpu-shared-memory imagefilter

回答 1 投票 0

如何使用可变长度内循环来展平 CUDA 中的嵌套循环？

我有以下 C++ 代码，我必须在 CUDA 中并行化。 #包括使用命名空间 std； int main() { 整数长度=4；整数x = 3; int a[长度 + 1] = {0, 3, 5, 9...

c++ loops cuda gpu

回答 1 投票 0

如何让 CUDA 流等待尚未安排的工作？（即类似用户事件的模式）

我想在 CUDA 流上做一些工作，比如内核 K，这取决于之前需要在 CPU 上完成的工作。 CPU工作的具体细节我并不知道...

asynchronous cuda opencl cuda-events

回答 3 投票 0

cuda 相关问题

最新问题