如何减小CUDA上下文大小（多进程服务）

问题描述投票：0回答：1

[我遵循了Robert Crovella的example，了解如何使用Nvidia的Multi-Process Service。根据docs：

2.1.2。 减少了GPU上下文存储
没有MPS，每个使用GPU的CUDA进程都会分配单独的存储在GPU上调度资源。相反，MPS服务器分配一份GPU存储和调度资源共享的副本所有客户。

我理解为减少每个进程的上下文大小，这是可能的，因为它们是共享的。这将增加可用的GPU内存，因此可以并行运行更多进程。

现在返回示例。没有MPS：

并且使用MPS：

不幸的是，每个进程实际上占用的内存几乎相同（〜300MB）。这与文档矛盾吗？有没有办法减少每个进程的内存消耗？

cuda

multiprocessing

gpu

gpgpu

multi-process-service

1个回答

0
投票

糟糕，在检查另一张（Volta之前）卡上的内存使用之前，我急切地问，是的，实际上是有区别的。如果有人也遇到这个问题，请允许我在这里发布以供将来参考：

关闭MPS：

开启MPS：