[我遵循了Robert Crovella的example,了解如何使用Nvidia的Multi-Process Service。根据docs:
2.1.2。 减少了GPU上下文存储
没有MPS,每个使用GPU的CUDA进程都会分配单独的存储在GPU上调度资源。相反,MPS服务器分配一份GPU存储和调度资源共享的副本所有客户。
我理解为减少每个进程的上下文大小,这是可能的,因为它们是共享的。这将增加可用的GPU内存,因此可以并行运行更多进程。
现在返回示例。没有MPS:
并且使用MPS:
不幸的是,每个进程实际上占用的内存几乎相同(〜300MB)。这与文档矛盾吗?有没有办法减少每个进程的内存消耗?