我正在用 GPGPU 编程做一些实验,准确地说是使用 CUDA。当执行全局内核时,是否需要先完成一个线程,然后才能继续执行下一个线程(类似于 for 循环方式)? 还是每个线程同时运行?
我认为一次性跑是错误的。但是,据我了解 GPGPU 编程,例如使用 Unity Compute Shader,数据会在调度(执行 GPU 计算代码)完成后立即显示。
还是我这里有误会?我希望立即运行所有线程。