CUDA内核和流式多处理器的推理速度

据我所知，NVIDIA GPU的CUDA核心数量决定了它运行单个深度学习模型的速度。

因此，如果我使用NVIDIA TITAN RTX GPU在0.5秒内对模型进行推理，该GPU具有72个流处理多处理器和4608内核，并且使用GPU的最大利用率约为10％，我可以假设使用了10％的流式多处理器（大约7个）？因此，大约使用了大约900个CUDA内核？（我基于此答案：https://superuser.com/questions/1109695/how-to-determine-number-of-gpu-cores-being-utilized-for-a-process）

因此，如果我降级到具有3000个CUDA内核的较低GPU，理论上它应该仍然能够以相同的0.5秒速度执行推理，对吧？

0
投票

这不是对利用率的正确解释。 10％的利用率意味着，大致而言，GPU内核在运行的时间占10％。 90％的时间，没有GPU内核在运行。它并没有告诉您有关GPU内核正在做什么或正在使用多少资源的任何信息。超级用户给出的答案是错误的。正确的描述是here。如此处所示，有可能证明仅使用一个“核心”的GPU内核（即仅使用一个线程的内核）具有100％的利用率。

关于您的问题，如果您从具有4608核的GPU切换到具有3000核的GPU，则不应假定性能没有任何变化。首先，没有足够的信息来判断性能（诸如时钟速度之类的事情很重要），其次，例如，如果您假设它们是同一代的GPU，那么具有3000个内核的GPU可能会比4608核的GPU。这是因为对于给定的GPU架构一代，时钟速度，内存带宽等其他因素在具有3000个内核的GPU上都可能会更低。

简而言之，我不会认为推理性能是相同的。除了您在此处指示的内容以外，还取决于其他内容。我认为它可能更快，也可能更慢，具体取决于实际GPU的比较。

关于当前可用的CUDA GPU，几乎任何事物在推理性能上都可能比Titan RTX慢一些。取决于具体的GPU，差异可能很小，或者可以忽略不计，或者更大。

问题描述投票：0回答：1

1个回答

最新问题

CUDA内核和流式多处理器的推理速度

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1