我在 OpenCL 1.2 中遇到问题。 看,我在内核中有一个数组
__global
,组大小为 1000。
问题是 atomic_add()
功能无法正常工作。
我的内核代码是:
__kernel void kernelfunction(__global uint32_t* buffer){
buffer[3] = 100;
atomic_add(&buffer[3], 1);
...
}
如果我创建 1000 个线程,我预计
buffer[3]
的值将为 1100,对吗?
但程序的行为是未定义的。
有时是 1100,有时是 1064,有时是 1093,...
我尝试过的:
我还启用了 opencl 扩展,如下所示:
#pragma OPENCL EXTENSION cl_khr_global_int32_base_atomics : enable
但是问题依然存在。 在另一个项目中,我创建了一个简单的 opencl 项目,并且
atomic_add
工作正常,并且我已经检查了几乎整个项目配置,但我不知道问题出在哪里。
你能帮我吗? 谢谢
如果没有原子,简单的访问在对同一元素执行时会出现竞争条件,更糟糕的是,所有数据都可能已缓存在每个计算单元中,并且在内核结束之前不会更新。
buffer[3] = 100;
这是未定义的行为。结果甚至可能是 101;
即使同一本地组中的线程在没有同步命令的情况下也无法拥有真实数据。
初始化应该由主机进行,因为 GPU 并发运行线程。不是连续的,不包括原子。或者,您为其自己的组进行初始化(从其他组中不可见)并在其后添加
barrier(CLK_GLOBAL_MEM_FENCE)
,以便同一组中的其他线程可以正确看到它。