CUDA内核和流式多处理器的推理速度

问题描述 投票:0回答:1

据我所知,NVIDIA GPU的CUDA核心数量决定了它运行单个深度学习模型的速度。

因此,如果我使用NVIDIA TITAN RTX GPU在0.5秒内对模型进行推理,该GPU具有72个流处理多处理器和4608内核,并且使用GPU的最大利用率约为10%,我可以假设使用了10%的流式多处理器(大约7个)?因此,大约使用了大约900个CUDA内核? (我基于此答案:https://superuser.com/questions/1109695/how-to-determine-number-of-gpu-cores-being-utilized-for-a-process

因此,如果我降级到具有3000个CUDA内核的较低GPU,理论上它应该仍然能够以相同的0.5秒速度执行推理,对吧?

cuda gpu nvidia inference
1个回答
0
投票

这不是对利用率的正确解释。 10%的利用率意味着,大致而言,GPU内核在运行的时间占10%。 90%的时间,没有GPU内核在运行。它并没有告诉您有关GPU内核正在做什么或正在使用多少资源的任何信息。超级用户给出的答案是错误的。正确的描述是here。如此处所示,有可能证明仅使用一个“核心”的GPU内核(即仅使用一个线程的内核)具有100%的利用率。

关于您的问题,如果您从具有4608核的GPU切换到具有3000核的GPU,则不应假定性能没有任何变化。首先,没有足够的信息来判断性能(诸如时钟速度之类的事情很重要),其次,例如,如果您假设它们是同一代的GPU,那么具有3000个内核的GPU可能会比4608核的GPU。这是因为对于给定的GPU架构一代,时钟速度,内存带宽等其他因素在具有3000个内核的GPU上都可能会更低。

简而言之,我不会认为推理性能是相同的。除了您在此处指示的内容以外,还取决于其他内容。我认为它可能更快,也可能更慢,具体取决于实际GPU的比较。

关于当前可用的CUDA GPU,几乎任何事物在推理性能上都可能比Titan RTX慢一些。取决于具体的GPU,差异可能很小,或者可以忽略不计,或者更大。

© www.soinside.com 2019 - 2024. All rights reserved.