gpgpu 相关问题

GPGPU是计算机科学领域的首字母缩写,被称为“图形处理单元(GPU)上的通用计算”


Compute Shaders:为什么使用RWTexture2d ?

已编辑的问题:我有一个ID3D11Texture2D和ID3D11UnorderedAccessView,格式为DXGI_FORMAT_R8G8B8A8_UNORM和着色器RWTexture2d tex:register(u0); [numthreads(32,32,1)] void ...

回答 1 投票 0

CUDA合并和全局内存

我在CUDA课程中被告知,如果我的“ a”数组的元素大小为4,8或16个字节,则对以下访问(全局内存)进行合并缩放。 int i = blockIdx.x * blockDim.x + threadIdx.x; a [...

回答 1 投票 0

cudaDeviceSynchronize()仅在当前CUDA上下文中或在所有上下文中等待完成?

我使用CUDA 6.5和4 x GPU开普勒。我使用多线程,CUDA运行时API,并从不同的CPU线程访问CUDA上下文(通过使用OpenMP,但这并不重要)。当我打电话时...

回答 1 投票 4

即使我们具有单节点多GPU设置,也要限制MPI在单个GPU上运行

我是分布式计算的新手,我正在尝试运行一个使用MPI和ROCm(AMD框架在GPU上运行)的程序。我用来运行程序的命令是mpirun -np 4 ./a.out但这是...

回答 1 投票 1

正在运行的CUDA内核的名称可以通过其线程获取吗?

假定某个内核(名为foo的__global__函数)正在CUDA设备上运行。并假设内核调用了__device__功能栏,该功能栏有时在其他内核中调用,即...

回答 1 投票 -1

如何将2D / 3D CUDA块分成扭曲?

如果我从一个具有其块尺寸的网格开始我的内核:dim3 block_dims(16,16);现在如何将网格块拆分为扭曲?这样的块的前两行形成一个翘曲,还是前一个...

回答 2 投票 15

反正从gpg加密文件中提取公钥吗?

请考虑以下情形:1.我生成一个密钥对。 2.然后,我将公钥分发给我的客户。 3.客户使用公共密钥加密文件,然后将文件发送给我。 4.我需要...

回答 2 投票 -1

使用MATLAB的GPU功能计算sum(a。* exp(b。* c),1)的有效方法

我有GPU加速的MATLAB代码,它花费了其时间的80%-90%来计算sum(a。* exp(b。* c),1),其中size(a)= [n 1] size(b)= [ n 1] size(c)= [1 m] n可以选择任意大(...

回答 1 投票 4

vb.net中的GPU处理

我有一个程序大约需要24小时才能运行。这些都是用VB.net编写的,大约有2000行。它已经是多线程的,并且可以正常工作(经过一些汗水和眼泪)。我...

回答 2 投票 1

Nvidia GPU同时访问全局内存中的单个位置

[我想知道当单个线程束内的多个线程尝试访问全局内存中的相同位置(例如,相同的4字节字)时,会发生什么情况,特别是在具有计算功能的Turing GPU中……

回答 1 投票 1

Cuda:具有位集数组的XOR单个位集

我想将单个位与一堆其他位集(〜100k)进行异或运算,并对每个异或结果的设置位进行计数。单个位集的大小约为20k位。这些位集已转换为...

回答 1 投票 0

在Intel HD 500上启用GL_INTEL_performance_query吗?

我正在尝试使用OpenGL扩展名:GL_INTEL_performance_query从集成的Intel GPU(HD 500)读取Intel性能计数器。我的硬件也支持此扩展,并且...

回答 1 投票 0

在Intel HD 500上启用GL_INTEL_performance_query吗?

我正在尝试使用OpenGL扩展名:GL_INTEL_performance_query从集成的Intel GPU(HD 500)读取Intel性能计数器。我的硬件也支持此扩展,并且...

回答 1 投票 0

以编程方式使用openCL选择最佳可用GPU的问题

我正在使用此处给出的建议为我的算法选择最佳GPU。 https://stackoverflow.com/a/33488953/5371117我在Macbook Pro上使用boost :: compute :: system :: devices()...

回答 1 投票 1

OpenCL中的设备内存对象地址是否自动对齐?

这里是示例代码:__kernel void my_kernel(__ global float * src,__global float * dst){float4 a = vload4(0,src); //对...做某事... vstore4(a,0,dst)} ...

回答 1 投票 0

如何减小CUDA上下文大小(多进程服务)

我遵循了Robert Crovella的示例,说明如何使用Nvidia的多进程服务。根据文档:2.1.2。减少了GPU上下文存储,而无需MPS,每个CUDA进程都使用GPU ...

回答 1 投票 0

可以由malloc分配gpu访问内存吗?

我正在尝试检查GPU是否可以访问由系统分配器分配的内存(例如malloc)。我正在使用Cuda 10.2,文档中提到该设备应支持...

回答 1 投票 0

OpenCL中的BLAS / LAPACK库

我通过使用OpenCL库在GPU中执行了矩阵矩阵乘法。结果并不令人满意,我认为使用某些库ccan可以提高效率。我想知道BLAS / LAPACK ...

回答 1 投票 0

是否可以将异步回调/继续附加到SYCL内核?

我有数千个SYCL内核要执行。这些内核中的每一个完成后,我需要在由所述内核写入的cl :: sycl :: buffer上执行一个函数。我正在使用的方法...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.