OpenCL内核是否异步执行？

Question

对于CUDA，我知道在将启动命令发布到默认流（空流）后，它们是异步执行的，那么在OpenCL中呢？示例代码如下：

cl_context context;
cl_device_id device_id;
cl_int err;
...
cl_kernel kernel1;
cl_kernel kernel2;
cl_command_queue Q = clCreateCommandQueue(context, device_id, 0, &err);
...
size_t global_w_offset[3] = {0,0,0};
size_t global_w_size[3] = {16,16,1};
size_t local_w_size[3] = {16,16,1};
err = clEnqueueNDRangeKernel(Q, kernel1, 3, global_w_offset, global_w_size, 
                             local_w_size, 0, nullptr, nullptr);
err = clEnqueueNDRangeKernel(Q, kernel2, 3, global_w_offset, global_w_size, 
                             local_w_size, 0, nullptr, nullptr);
clFinish(Q);

kernel1和kernel2是否在命令入队后异步执行？（即，执行重叠）

更新根据OpenCL Reference，似乎在properties中将CL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE设置为clCreateCommandQueue可以满足我的需要。但是，out_of_order表示异步吗？

Answer 1

在您当前的代码中：

err = clEnqueueNDRangeKernel(Q, kernel1, 3, global_w_offset, global_w_size, 
                             local_w_size, 0, nullptr, nullptr);
err = clEnqueueNDRangeKernel(Q, kernel2, 3, global_w_offset, global_w_size, 
                             local_w_size, 0, nullptr, nullptr);

[kernel1首先完成，然后执行kernel2

使用中


clCreateCommandQueue(context, device_id, CL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE, &err);

尽管没有保证，您可以同时执行多个不同的内核。

不过请注意，并非所有OpenCL实现都支持CL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE。这也意味着您无法保证kernel1将在kernel2之前完成执行。如果需要kernel1输出的任何对象作为kernel2的输入，则可能会失败。

还可以创建多个命令队列并将其与命令排队，其存在的原因是，您希望解决的问题可能涉及主机中的某些（即使不是全部）异构设备。它们可以表示没有共享数据的独立计算流，也可以表示每个后续任务取决于上一个任务（通常是数据共享）的依赖计算流。但是，只要不共享数据，这些命令队列将在设备上执行而不会同步。如果数据是共享的，则程序员需要使用OpenCL规范中的同步命令来确保数据的同步。

Answer 2

无序平均异步

“乱序”队列表示内核may的执行顺序与已排队的顺序不同（如果它们的事件/数据相关性允许）。它们也可以同时执行，但不是必须执行。

此外，异步执行表示除执行重叠之外的其他内容（称为并行执行或并发）。异步执行意味着设备上的内核代码独立于主机代码执行-在OpenCL中始终如此。

获得并发（执行重叠）的简单方法是在同一设备上使用> 1个队列。即使在不具有乱序队列功能的实现上也可以使用。它不会保证执行重叠（因为OpenCL可以在比CUDA上更多的设备上使用，并且在某些设备上您一次仅[[不能一次执行1个以上内核），但是根据我的经验大多数GPU，您应该至少重叠some。不过，您需要注意内核在单独队列中使用的缓冲区。

OpenCL内核是否异步执行？

问题描述投票：2回答：2

2个回答

最新问题

OpenCL内核是否异步执行？

问题描述 投票：2回答：2

2个回答

最新问题

问题描述投票：2回答：2