我正在尝试监视Google Cloud Platform上的Nvidia GPU计算/内存使用情况。默认情况下,可以在GCP Web控制台上监视CPU使用情况,但是据我所知,我需要Stackdriver代理来监视RAM使用情况。
我的计算引擎实例具有(抢占式)GPU。我可以通过运行nvidia-smi
命令获得当前GPU的使用情况,但是我不知道如何让stackdriver知道这些指标。
有一个help article now about monitoring GPU performance。有关如何安装脚本的逐步指南,该脚本可能确实会导出自定义指标。