gpgpu 相关问题

GPGPU是计算机科学领域的首字母缩写,被称为“图形处理单元(GPU)上的通用计算”

金属着色语言在读取或写入纹理时是否始终采用 4 分量像素格式?

我只是想确认我使用 1、2 或 3 分量像素格式的纹理的方式是在 Metal 中执行此操作的正确方法。 假设我们已经分配了一个纹理 PixelFormat = .rg32Float i...

回答 1 投票 0

OpenCL 多重指数减少

我有两个数组——一个源数组 a 和一个目标数组 b。 我想通过从 b 索引它们来设置 a 中的某些值。为此,我有另一个索引数组 i,其大小与 b、bu...

回答 1 投票 0

GPU多线程中线程是如何运行的?

我正在用 GPGPU 编程做一些实验,准确地说是使用 CUDA。执行全局内核时,是否需要先完成一个线程,然后才能继续执行下一个线程(类似于

回答 0 投票 0

矩阵向量乘积 CUDA 通过平铺和共享内存提高性能

你好,我正在 CUDA 内核中研究矩阵向量积。我想通过平铺和共享内存提高性能。 问题是使用这段代码矩阵 M 或向量 N 不是

回答 1 投票 0

每个 warp 线程从共享内存加载一个相同的 32 字节(ulong4)

如果每个 warp 访问同一地址的共享内存,那将如何加载 32 字节的数据 (ulong4)?它会被“广播”吗?访问时间是否与每个线程加载 2

回答 1 投票 0

cuda nbody仿真-共享内存问题

基于 Nvidia GPU 计算 SDK 的示例,我为 nbody 模拟创建了两个内核。第一个不利用共享内存的内核比第二个内核快 15%

回答 2 投票 0

GPGPU:一维线程索引的 CUDA 内核配置 - 线程、块、共享内存和寄存器

假设我有 N 个任务,其中每个任务都可以由 GPU 上的单个线程执行。还假设 N = GPU 上的线程数。 问题一: 以下是一种合适的发射方式吗...

回答 1 投票 0

CUDA 共享内存阵列 - 奇怪的行为

在 CUDA 内核中,我有类似于以下的代码。我正在尝试为每个线程计算一个分子,并在块上累加分子以计算分母,然后返回

回答 1 投票 0

如何使用GPGPU高效地执行加载和位运算?

我需要将长度为 128 到 256 字节的数组加载到 GPU 共享内存。 我想在有效执行按位操作的同时最小化全局内存访问。 我有一个 256 字节的数组加载到 ...

回答 1 投票 0

cuda fortran 中的共享内存未按预期工作

我正在用 CUDA Fortran 编写代码,出现了一个奇怪的行为。我真的不明白为什么我的代码会这样运行,非常感谢您的帮助。 似乎从未分配值 0 并且...

回答 1 投票 0

CUDA 放置新功能和虚拟功能

我处于一种迫切需要内核中的虚函数的情况。我知道如果对象具有虚函数,则不能在内核中使用在主机内存中创建的对象。 如果我使用 placement new...

回答 1 投票 0

OneAPI 或 ROCm 能否在使用 AMD GPU 的 Windows 上原生运行?

我正在尝试确定任何可能的选项,以通过使用 GPU 来加速线性代数计算。更准确地说,我需要加速显式动力学求解器。因为在每个增量...

回答 0 投票 0

YoloV5坚果使用gpu

我的显示卡:Rx560 处理器:i5-7500 内存:8GB 我正在尝试创建一个专门使用数据集的yolov5对象识别模型,但我可以解决不使用视频卡的naisl。 呃……

回答 0 投票 0

使用 GPGPU 并行查找数千个转换函数的根

我目前正在考虑使用 GPGPU 来加速我的算法,该算法在计算量和数据量方面非常繁重,并且还有时间限制。我需要 4-5 秒内的解决方案...

回答 0 投票 0

优化蛮力矩阵向量乘法

矩阵是已知的编译时间。相邻行之间的变化很小。计算它的目的是找到最大索引。 我想在 gpu 上并行化它。会分解...

回答 0 投票 0

是否有一种有效的算法来组织连接点的图形以最小化连接点之间的距离?

我有一个 1000 万个节点的图表,每个节点连接到大约 120 个其他节点。我希望以一种简单直观的方式可视化所有这些节点及其交互。 有没有办法给...

回答 0 投票 0

在 Apple 芯片上运行时,跨步内存访问会影响 Metal 计算内核的性能吗?

我有以下 Metal 内核,它简单地并行添加两个数组(大小 Nx*Ny): kernel void add_arrays(device const float* inA, 设备常量 float* inB, ...

回答 0 投票 0

有没有办法任意阻止和取消阻止 CUDA 流?

我需要从程序一部分的某个点暂停流中所有调用的执行,直到程序的另一部分决定在任意时间取消暂停该流。这是……

回答 1 投票 0

HLSL Compute Shader 中多个数字的原子交换?

我正在尝试实现一个就地落沙算法,假设我有一个 3D 纹理,我希望所有不为零的点在该点为空(0)时向下移动一个点。这很容易做到...

回答 0 投票 0

无法为 GPGPU 执行 OpenGL 计算

我尝试根据本教程实现OpenGL GPGPU计算。 我现在重新实现代码以使用 VAO、VBO 而不是 glVertex。我创建的代码是计算数组 X 和 arr 之间的总和...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.