cuda 相关问题

CUDA是Nvidia GPU（图形处理单元）的并行计算平台和编程模型。 CUDA通过各种编程语言，库和API为Nvidia GPU提供了一个接口。

如何使用Thrust减少数组中不连续的数字段

我有一个数组“A”，它由许多数组“a”组成，如下所示：我正在实现一个代码来总结非连续的段（总结每个段中相同颜色的段中的数字...

cuda nvidia gpgpu thrust

回答 1 投票 0

CUDA批量复制图像

我在目录中有5000多张图片。我想在两个图像之间进行图像比较。 5000张图像的比较总数为5000C2 = 12,497,500。我正在使用OpenCV和CUDA 10.1但是......

c++ opencv cuda

回答 1 投票 -6

为什么不同流中的内核执行不并行？

我刚刚在CUDA中学习了流技术，并尝试了它。 Howerver不希望的结果返回，即流不是并行的。（在GPU Tesla M6，OS Red Hat Enterprise Linux 8上）我有一个数据矩阵......

c++ cuda gpu-programming

回答 2 投票 0

支持`__shfl（）`和`__shfl_sync（）`指令的正确方法是什么？

根据我的理解，CUDA 10.1删除了shfl指令：PTX ISA版本6.4删除了以下功能：支持没有.sync限定符的shfl和投票指令已经......

cuda ptx ptxas

回答 1 投票 0

减少cuda内核运行时：内核中矩阵的动态内存分配

我想通过在GPU上并行运行矩阵运算来执行适用于大量小型矩阵的OLS。我编写的代码似乎正在运行，但速度较慢......

c++ cuda gpu dynamic-memory-allocation

回答 1 投票 0

CUDA：每个GPU线程上的Runge-Kutta轨迹

简介：如何避免因不同线程的不同工作负载而导致的性能损失？（每个线程上带有while循环的内核）问题：我想解决粒子轨迹（由...描述）

c++ parallel-processing cuda gpu runge-kutta

回答 1 投票 0

我如何在CUDA中正确使用全局内存？

我正在尝试在CUDA中使用使用设备定义的全局内存来执行应用程序。此变量在.cuh文件中声明。在另一个文件.cu是我的主要工作，我做cudaMallocs和...

c++ c memory-management cuda gpu

回答 2 投票 1

使用哪个：零复制内存与固定内存

在我的设备功能中，我将值存储在主机的全局内存（固定或零复制）中数百万次。在我的主机函数中，循环迭代并一次从全局读取一个值...

cuda

回答 1 投票 0

Cuda基本程序（将值写入矩阵和std：cout不起作用）;主要功能无法启动

我写了一个非常简单的Cuda程序。我想将值分配给设备内存中的矩阵。然后我想将值复制到主机并显示它们。我写的程序不起作用。但是我 ...

c++ cuda std cout

回答 2 投票 2

我在win10上安装了cuda，但是anaconda让我在环境中重新安装它

在这里输入图像描述是否有一些我没有添加的路径？

python cuda anaconda

回答 1 投票 -1

CUDA：何时使用共享内存以及何时依赖L1缓存？

在Compute Capability 2.0（Fermi）发布后，我想知道是否有任何用例共享内存。也就是说，何时使用共享内存比让L1发挥其魔力更好......

caching cuda shared-memory

回答 2 投票 16

使用cuda计算图片并使用OpenGL直接显示

我想写一个计算我图片的程序（实际上是空间光调制器（SLM）的全息图）。这应该是实时发生的。图片应该在GPU上计算......

c++ opengl cuda glut

回答 1 投票 0

有没有相当于“cudaMemcpy”的东西，从设备全局内存到主机全局内存，我可以在设备函数中调用？

设备中的cudaMemcpy仅支持设备到设备。我需要从设备全局复制到主机全局内存（无论是同步还是异步，尽管异步更可取）。我真的......

cuda

回答 1 投票 0

如何将python函数“any（）”转换为CUDA python兼容代码（在GPU上运行）？

我想知道如何在GPU上实现numpy函数any（）（使用Numba python）。 any（）函数接受一个数组，如果输入的至少一个元素的计算结果为True，则返回True。 ...

python numpy cuda numba

回答 1 投票 0

在cuda和矩阵运算中的Grid-Stride Loop，我们为什么需要它？

__global__ void substract（float * A，float * B，float * res，int * n）{int size = * n; int tid = threadIdx.x + blockIdx.x * blockDim.x; while（tid <size）{res [tid] = A [tid] - B [...

c cuda

回答 1 投票 0

如何使用cudaMalloc / cudaMemcpy作为指向包含指针的结构的指针？

我看过这个网站和其他人，并没有任何效果。我正在为我的具体案例提出问题。我有一堆矩阵，目标是使用内核让...

pointers cuda

回答 1 投票 0

LINUX上的tensorflow-gpu运行失败

我在ubuntu 16.04上安装了CUDA和cuDnn。 CUDA版本：9.0 //带驱动程序版本390.87 cuDNN版本：7.2用于CUDA9.0导入tensorflow因为tf工作正常，但是tf.Session（）呈现...

tensorflow cuda

回答 1 投票 -1

如何调用“cudaDeviceSetSharedMemConfig”和“cudaDeviceSetCacheConfig”

我正在尝试为GTX 1080上的cuda代码优化共享内存。为此，我想通过调用：cudaDeviceSetSharedMemConfig（...来更改共享内存库宽度和缓存配置）。

cuda

回答 1 投票 0

用于生成素数的程序，错误：“堆栈溢出”[关闭]

我有程序，它在CUDA中生成素数并在第138行程序崩溃：cudaMemcpy（gpudata，data，sizeof（int）* MAXSIZE，cudaMemcpyHostToDevice）;我收到了该行的“堆栈溢出”错误....

c++ visual-studio cuda

回答 1 投票 -4

Visual Studio 2017 msvc vs nvcc __cplusplus宏不匹配

我使用的是Visual Studio 2017，平台工具集v141和CUDA Toolkit 9.2。我注意到在使用nvcc编译thrust :: device_vector时，不存在移动构造函数和移动赋值。 ......

c++ cmake cuda visual-studio-2017 thrust

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.