gpgpu 相关问题

GPGPU是计算机科学领域的首字母缩写,被称为“图形处理单元(GPU)上的通用计算”

并行穷举算法GPU

我实现了一个平行的BF发生器在Python想在这个帖子!并行蛮力产生。我想要实现对GPU这种并行技术。应该像平行BF ...

回答 1 投票 1

CUDA驱动程序与API。 CUDA运行时

编写CUDA应用程序时,您可以在驱动程序级别或运行时级别工作,如此图像所示(库是CUFFT和CUBLAS进行高级数学运算):(来源:tomshw.it)...

回答 4 投票 36

你成功使用过GPGPU吗? [关闭]

我很想知道是否有人编写了一个利用GPGPU的应用程序,例如使用nVidia CUDA。如果是这样,你发现了什么问题以及性能提升了多少......

回答 10 投票 19

使用(多个)条件三元运算符比使用GLSL中的if语句更好

我记得几年前我被告知在GLSL着色器中做一个=条件更好吗? statementX:statementY; over if(condition)a = statementX;否则a = statementY;因为在后一种情况下,......

回答 1 投票 1

CUDA内核无法启动

我的问题非常像这个问题。我运行最简单的CUDA程序,但内核没有启动。但是,我确信我的CUDA安装没问题,因为我可以运行复杂的CUDA项目......

回答 3 投票 5

CUDA块如何分为经线?

如果我用一个网格开始我的内核,其网格的块有尺寸:dim3 block_dims(16,16);网格块现在如何分成经线?这样一个块的前两行是否形成一个warp,或者第一个...

回答 2 投票 13

我可以将现有的可分页内存转换为固定内存吗?

每当我在CUDA中使用固定内存时,这个问题就会浮现在我的脑海中。我已经在这个主题上搜索了很多,但没有发现任何东西。基本上我们必须执行两次数据传输才能......

回答 1 投票 2

CUDA排序许多矢量/阵列

我在GPU内存中有很多(200 000)个整数向量(每个向量大约2000个元素)。我试图并行化需要排序,计算平均值,标准差和...的算法。

回答 1 投票 1

在所有GPU核心上同时运行每个GPU核心的一个程序实例

我们有数百万个小文件要由某些程序处理。精确的程序并不重要,并且随着精确的任务而变化。但是,这些是较小的C ++程序,我们有......

回答 1 投票 -1

VideoCoreIV VC4CL(Raspberry Pi GPU)上的PyOpenCL性能问题

我是OpenCL / PyOpenCL的新手,我试图了解Raspberry GPU上的OpenCL(VideoCoreIV)与我的硬件上的向量和矩阵乘法中的Numpy(在CPU上)的比较。我正在使用VC4CL作为......

回答 1 投票 0

CPU和GPU内存共享

如果(离散)GPU有自己的视频RAM,我必须将我的数据从RAM复制到VRAM才能使用它们。但如果GPU与CPU集成(例如AMD Ryzen)并共享内存,我会......

回答 1 投票 0

nvidia-smi易失性GPU利用率解释?

我知道nvidia-smi -l 1会每秒钟提供一次GPU使用(类似于以下内容)。但是,我很感激Volatile GPU-Util的真正含义。这是号码......

回答 1 投票 47

一个通用的warp级std :: copy-like函数 - 它应该占什么?

C ++标准库使用以下代码(忽略各种包装和概念检查等)使用简单循环实现std :: copy:for(; __first!= __last; ++ __ result,++ __ first)* ...

回答 1 投票 -1

关于warp投票功能

CUDA编程指南介绍了经线投票功能的概念,“_ all”,“_ any”和“__ ballot”。我的问题是:哪些应用程序将使用这3个功能?

回答 4 投票 7

稀疏布尔矩阵乘法

有人知道稀疏布尔矩阵乘法的有效实现吗?我对CPU和GPGPU实现感兴趣,因为有必要将不同的矩阵相乘...

回答 1 投票 1

最快的固定长度6 int数组排序3个值

回答另一个Stack Overflow问题(这个)我偶然发现了一个有趣的子问题。排序6个整数数组的最快方法是什么?由于问题水平很低:我们可以......

回答 24 投票 387

OpenCL遍历内核 - 进一步优化

目前,我有一个类似于遍历的OpenCL内核,如下所示。如果有人对这个相当大的内核进行优化,我会很高兴。问题是,我正在使用SAH BVH运行此代码并且......

回答 1 投票 4

理解设备分配,并行性(tf.while_loop)和张量流中的tf.function

我试图在tensorflow中理解GPU上的并行性,因为我需要在uglier图上应用它。使用tf.device('/ device:GPU:0')从datetime import datetime导入tensorflow为tf:var = tf ....

回答 1 投票 1

在WebGL中用1d纹理替换统一数组时数据损坏

我正在WebGL2中的大型4D输入数组上进行一些GPGPU处理。最初,我只是将输入数组展平并将其作为一个统一的整数数组传递,并在GLSL中使用自定义存取函数...

回答 2 投票 1

使用统一值替换GLSL常量时数据损坏

跟进最近的这个问题。我在WebGL2中进行GPGPU编程,我将一个大的四维方形数组传递给着色器,将其打包成纹理以绕过统一计数...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.