cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

使用CUDA运行时API检查错误的规范方法是什么?

查看有关CUDA问题的答案和评论,以及CUDA标记维基,我发现通常建议每个API调用的返回状态都应该检查错误。 API ......

回答 4 投票 239

CUDA核心和CPU核心有什么区别?

我在CUDA上工作了很多,并且在CPU上做了很多工作,我正在努力理解两者之间的区别。我的I5处理器有4个内核,售价200美元,而我的NVidia 660有960个内核......

回答 4 投票 21

我可以使用什么来代替LOP3指令来处理uint64_t数据类型并使用一条指令执行3个操作数逻辑运算?

我正在研究一个项目,需要使用uint64_t数据类型进行3次操作数逻辑运算。但是lop3 ptx指令只适用于32位数据类型(.b32)。 LOP3文档我可以使用什么...

回答 2 投票 0

NVIDIA Visual Profiler不会生成时间轴

我的问题几乎与[之前在SO询问] [1]的问题相同。但是没有给它答案,所以我要问一个单独的问题。我在Windows-7操作系统上使用CUDA 7.0工具包。我是 ...

回答 1 投票 1

为什么ceil在这里使用,它的用途是什么[重复]

我正在看一个生活gpu代码游戏,无法理解为什么ceil用于dim3 cpyBlockSize(BLOCK_SIZE,1,1); dim3cpysimulationRowssimulationSize((int)ceil(size /(float)...

回答 1 投票 -1

如何在gpu中创建矩阵并在cpu上打印?

这是一个在gpu上创建矩阵并在cpu上打印出来的代码。谁能告诉我哪里出错了。谢谢。 #include __global__ void create(int ** d_a){int i = ...

回答 1 投票 0

袖口的内存要求

我有四个cufftHandles,我使用cufftPlanMany初始化它们(一起)。我正在使用cufftGetSizeMany()来估计每个内存所需的内存。让我们说s0是......

回答 2 投票 0

最大CUDA块数?

我想在CUDA中实现一个算法,它采用大小为N的输入并使用N ^ 2个线程来执行它(这是特定算法词的方式)。我被要求制作一个可以...的程序

回答 1 投票 0

在类中声明cuda __constant__ memory

我是CUDA编程的新手。目前,我正在尝试构建一个使用CUDA并行处理数据的OO框架。我目前正在使用CUDA 8.0。有一些关键参数......

回答 1 投票 1

CUDA Thrust Min_Element结果等于0

然而,CUDA和C ++的新功能已经解决了我注意到的一些问题。我想在CUDA中生成最小的数字和索引。目前我有__global__ ...

回答 1 投票 0

在CMake中确定nvcc需要哪个gencode(compute_,arch_)值

我正在使用CMake作为我的代码的构建系统,它涉及CUDA。我正在考虑自动执行决定我需要将哪个compute_XX和arch_XX传递给我的nvcc以便编译的任务...

回答 3 投票 4

cuda stream有自己的__constant__内存副本吗?

我有一个内核多次使用一点__constant__内存,每次需要将不同的值复制到__constant__内存。最近,我需要使这个内核多流......

回答 1 投票 0

线程是否可以原子地更新共享内存的4个不同位置?

假设内核的线程正在尝试更新共享内存上的4个不同位置。如果任何其他线程覆盖了任何这些位置,我可以导致该操作失败并被撤消吗? ...

回答 1 投票 1

如何用Cublas或推力计算复杂载体的内积?

经过长时间的搜索,我仍然无法解决这个问题。我有两个向量:x = [a1,...,aN],y = [b1,...,bN]。我想计算他们的内在产品:= a1 * conj(b1)+ ... + aN * conj(bN)。 (...

回答 1 投票 0

使用GPU加速的arrayfun中的匿名函数(Matlab)

我是Matlab R2012b的Parallel工具箱的新手,想知道克服以下问题的最佳方法是什么。我正在分析图像中每个像素的邻域。哪个是......

回答 2 投票 3

如何调试错误代码77:cudaErrorIllegalAddress当cuda-memcheck发现没有问题?

我有一个复杂的Cuda C ++应用程序运行良好,直到我构建cuda代码-g -G。当构建调试时,它与cudaErrorIllegalAddress崩溃,所以我运行cuda-memcheck,但没有发现任何问题。 ...

回答 1 投票 0

C ++ - 试图将两个点的值等于产生错误:表达式必须具有算术或枚举类型

当我尝试使用nvcc -c编译我的.cu文件时,会出现以下错误:mag_cuda.cu(213):error:expression必须具有算术或枚举类型如果函数的一部分有问题的行...

回答 1 投票 -2

带有动态共享内存的模板化CUDA内核

我想在一个程序中调用带有动态分配的共享内存的模板化CUDA内核的不同实例。我的第一个天真的方法是写:模板 __global__ ......

回答 2 投票 6

使用cudaMallocManaged时,为什么NVIDIA Pascal GPU在运行CUDA内核时会变慢

我正在测试新的CUDA 8以及Pascal Titan X GPU,并期待我的代码加速,但由于某种原因它最终会变慢。我在Ubuntu 16.04上。这是最小的代码......

回答 3 投票 10

有没有办法在奇怪大小的数据数组上使用CUB :: BlockScan?

所有示例都对大小为32的某个倍数的数组执行扫描。最快的示例使用256个或更多线程,每个线程分配4个或更多元素。这意味着,如果我有......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.