我没有找到有关CUDA PTX源的最大大小或其执行速度的任何细节。
我们的想法是让一个程序预编写一个大的PTX汇编代码块,该代码块预先包含数据集,以实现非常快速的寄存器访问,并且在其功能期间不会从全局内存中拉出。因此,您的数据集将预设为PTX源代码。
编程指南的附录A引用了每个内核200万个ptx指令(这是来自2010年的论坛聊天 - 我还没有找到直接参考),所以imho绝对可行,并且不需要访问全局内存,加速可能是戏剧性的。 。