cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

用CUDA求解密集线性系统AX = B.

我可以使用新的cuSOLVER库(CUDA 7)来解决AX = B形式的线性系统,其中A,X和B是NxN密集矩阵吗?

回答 1 投票 5

矢量加CUDA

我是CUDA的新手并且正在进行第一个练习,即向量添加#include #包括 #包括 //计算向量和C = A + B // CUDA内核。每个......

回答 1 投票 -1

CUB使用迭代器排序

我想一次性转换值并对它们进行排序,如下所示:thrust :: vector dataIn = ... thrust :: vector dataOut = ... auto iterIn = cub :: TransformInputIterator

回答 1 投票 0

为CUDA内核调用设置VS 2010 Intellisense

我刚刚开始进行CUDA编程,而且它的功能非常好,我的GPU已经被认可了。我在Visual Studio中使用这个非常有用的指南部分设置了Intellisense:...

回答 3 投票 16

cuda非法内存访问但有足够的内存

我试图运行下面的代码并遇到内存访问错误。我尝试运行cuda-memcheck并返回以下信息:由于相同的代码运行良好,因此对我来说很奇怪...

回答 1 投票 -1

一个奇怪的CUDA编译问题

该项目由CMake构建并由Visual Studio 2015编译。并且使用CUDA_ADD_LIBRARY命令将cuda代码编译为.lib文件。代码显示如下://kernel.h #pragma once ...

回答 1 投票 -1

如果NVIDIA控制面板为计算设置优化,cuCtxCreate将失败

我通过JCuda API运行CUDA。当我使用NVIDIA控制面板为参与的JVM可执行文件(java.exe)设置计算优化(默认情况下是关闭)时,程序无法创建...

回答 1 投票 0

如何通过nvprof在短时间内分析CUDA应用程序?

我想通过nvprof生成限制配置文件。如何将分析时间限制在5秒钟?

回答 2 投票 0

CUDA:在if语句中写入全局内存的速度很慢

我有两个内核:模板 __global__ void bpcKernel(T * finalOutputPtr,const T * heatMapPtr,const T * peaksPtrA,const T * peaksPtrB,const unsigned int * bodyPartPairsPtr,const ...

回答 1 投票 0

Cuda并行化内核

我正在尝试在GPU上并行化模拟的简单更新循环。基本上有一堆由圆圈表示的“生物”,每个更新循环中都会移动,然后会有......

回答 1 投票 -2

PyCUDA mem_get_ipc_handle给出LogicError:cuIpcGetMemHandle失败:不支持操作

我想在这里执行代码。我得到以下错误:orig:[0.36975162 0.08511397 0.16306844 0.4015488 0.25104857 0.30606773 0.24524205 0.13792656]处理过程-1:回溯(大多数...

回答 1 投票 0

进入g ++编译步骤时Cuda编译错误

nvcc -D_DEBUG --use_fast_math -I“/usr/local/cuda-9.0//include”-I“/ usr / include / eigen3”-I“/home/xingfu/NVIDIA_CUDA-9.0_Samples/common/inc”-dlink --machine 64 -arch = sm_50 -c -o kernel_cuda.o .. / ...

回答 1 投票 0

如果CUDA线程遇到错误,有没有办法终止主机和设备程序执行?

我是CUDA编程的新手。在串行代码中,我经常使用一个函数,用于在发生错误后正常退出代码。例如。 void exit_with_error(char * message){fprintf(stderr,“%s”,...

回答 1 投票 0

CUDA对数:nvprof以双精度检测单精度运算

我在CUDA中以双精度计算“log(x)”,但是当我分析时,它使用度量“flop_count_sp_special”检测单精度操作。我正在编译“-arch = sm_30”以确保......

回答 1 投票 -1

块中的线程和warp(32个线程)之间有什么区别?

我已经为字符串匹配测试编写了一个程序,以测试性能与cpu的关系。我只是通过<<< 1,1 >>>调用内核,一个包含一个线程的块,执行时间是......

回答 1 投票 2

Cublas - 列/行明智的操作

我正在寻找一种在列上执行操作的方法。我有MxN矩阵,我想在每列上激活cublas函数(例如nrm2)。我期望获得的结果是:M x 1怎么能......

回答 1 投票 0

重复的可变参数模板参数

背景:我是一名小型软件工程师,希望我不是重新发明轮子,请告诉我。我想创建一个模板函数,它包装并调用另一个函数元素。为......

回答 1 投票 0

Cuda中的多个GPU - 之前的工作代码,但不再是

我最近遇到了在Cuda应用程序中运行多个NVidia GPU的麻烦。附带的代码能够在我的系统中在Visual Studio 2013和...中一致地重现问题。

回答 1 投票 2

删除内核调用中的倍数以获得更好的性能

我应该从这个筛选代码中删除多个,这是在内核调用中,但我不知道我是否正确地执行它。每次我输入一个大于20000000的值时,它都会给我这个错误:...

回答 1 投票 -2

经过多次执行后,CUDA程序的结果不一致

描述我试图在GPU上使用2D网格和2D块执行矩阵求和,并在几次执行程序后得到不同的结果。对此行为的任何解释或修复......

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.