gpgpu 相关问题

GPGPU是计算机科学领域的首字母缩写,被称为“图形处理单元(GPU)上的通用计算”

如何可靠地查询金属计算着色器的 SIMD 组大小? threadExecutionWidth 并不总是匹配

我正在尝试在 Mac 应用程序中的一系列相当复杂的计算内核中使用 SIMD 组缩减/前缀函数。我需要分配一些线程组内存来协调 SIMD ...

回答 1 投票 0

threadgroup_barrier清除内存为0

我有一个非常简单的内核,采用金属着色语言,它使用共享(线程组)内存,但它不起作用,我不明白为什么。它只是将一个值写入共享内存,然后...

回答 1 投票 0

Vulkan 更喜欢 1D 调用来匹配子组和工作组大小?

Vulkan 子组教程提到: 如果您指定的工作组大小小于子组大小, 保证您在子组内有非活动调用。 现在假设你...

回答 1 投票 0

Vulkan 计算着色器:将缓冲区传输到 GPU 或从 GPU 传输缓冲区的最有效方法?检索缓冲区似乎很慢

这里是初学者。刚刚完成官方 Vulkan 教程,现在正在尝试使用 Vulkan 进行一些 GPGPU 工作,并且正在努力在我的 GTX 1070 上获得不错的性能。 假设我想运行一个

回答 1 投票 0

为什么这个简单的 openCl 内核的矢量化会使其变慢?

我目前正在使用 OpenCl 在 GPU 上实现一个简单的并行索引总和。这是需要对大型数组进行连续流压缩的项目的一部分,所以我认为这将是一个很好的

回答 1 投票 0

C++ AMP 目前的状况如何

我正在使用 C++ 编写高性能代码,并且一直在使用 CUDA 和 OpenCL,最近还使用我非常喜欢的 C++AMP。然而我有点担心它没有被开发......

回答 5 投票 0

CUDA独立线程调度饥饿

这个 NVIDIA 官方博客在“无饥饿算法”部分声称 Volta 中的 ITS 添加了对无饥饿算法的支持,并提供了一些细节。这个官方文档...

回答 1 投票 0

CUDA编译器无法编译简单的测试程序

我正在尝试获取 NVIDIA 的 CUDA 设置并将其安装在我的配有 NVIDIA GEFORCE RTX 2080 SUPER 显卡的电脑上。经过几个小时的尝试不同的事情和大量的研究后,我得到了 CUD...

回答 2 投票 0

如何写入 fp16 表面?

我有一个 4 通道纹理/表面,它们分配有以下描述符: cudaChannelFormatDesc cuda_map_desc = cudaCreateChannelDesc(32, 32, 32, 32, cudaChannelFormatKindFloat); CUDA...

回答 1 投票 0

GPU 上具有 BIC 或 AIC 的高斯混合模型

scikit-learn 中有 GMM 的 bic/aic 标准,但我想将我的数据拟合到 GPU 上。 我发现 GMM 在 CuPy(cuda numpy 包装器)中实现,但它没有 bic/aic 标准。(https://github.com/c...

回答 1 投票 0

CUDA 中的固定大小 SVD 和求解器(在设备中)

我在GPU(CUDA)上实现了一个程序,它仅使用主机(C++)来启动新内核。在设备上计算期间,我需要 SVD 和 3x3(稠密)矩阵求解系统,固定...

回答 3 投票 0

将 async_work_group_copy() 与指针一起使用?

__kernel void kmp(__global char pattern[1*4], __global char* string, __global int 失败[1*4], __global int ret[1], int g_length、int l_length、int thread_num...

回答 1 投票 0

如何使用 AMD HIP 中的内联 GCN 汇编将多个 Float4 从内存加载到寄存器?

动机 我正在 AMD GPU 上进行一些微基准测试,以了解其性能特征,从而提高内核性能。我现在怀疑不同的寄存器分配和

回答 1 投票 0

OpenCL 2.2官方标准支持WaveFront吗?

众所周知,AMD-OpenCL 支持 WaveFront(2015 年 8 月):http://amd-dev.wpengine.netdna-cdn.com/wordpress/media/2013/12/AMD_OpenCL_Programming_Optimization_Guide2.pdf AMD Radeon HD 7770 GPU,用于

回答 1 投票 0

如果我们想为CPU和GPU编写一次优化的代码,我们应该使用向量类型吗?

众所周知,OpenCL向量类型float16 AMD GPU (GCN) 上的 float16 不使用加法向量运算,因为即使没有向量类型,也可以通过使用 WaveFront 来使用向量运算(每个线程 = 每个

回答 1 投票 0

在使用 HIP C++ 的 AMD GPU 上使用 `shfl` 操作有什么要求?

AMD HIP C++ 与 CUDA C++ 非常相似。 AMD还创建了Hipify来将CUDA C++转换为HIP C++(可移植C++代码),它可以在nVidia GPU和AMD GPU上执行:https://gith...

回答 1 投票 0

GPU 一致性和功耗:每个 warp 仅在一个线程上运行代码是否可以节省电量?

在 GPU 编程中,人们非常关心“一致性”:线程在所谓的“warps”中执行(每个线程大约有 32 个线程)。扭曲的所有线程都以“锁步”方式运行...

回答 1 投票 0

我可以利用 GPU 来加速 C# 中的非图形相关操作,例如并行 for 循环吗?

我有以下 CRC 计算,它在不同的数据源上并行执行 12 次。 一旦 CPU 线程数耗尽,我可以将其卸载到 GPU,还是 GPU 不适合......

回答 1 投票 0

OpenCL 内核在 GPU 上生成不正确的图像

我有一个 OpenCL 1.2 程序,可以将等距柱状 hdr 图像转换为立方体贴图。 在我的 i7-9750H CPU 上,一切正常,但当我在 GTX 1650 GPU 上运行该程序时,结果是

回答 1 投票 0

如何管理 OpenCL/SYCL 工作组中所有工作项共享的本地内存中的有状态数据结构

我正在尝试使用本地内存优化 OpenCL/SYCL 中的内存限制数值模拟内核,以允许工作项之间的数据共享,以便减少冗余的全局内存流量。 W...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.