基于 GPU 指标自动缩放 Seldon 部署

问题描述 投票:0回答:1

是否可以根据 GPU 指标自动缩放 Seldon 部署?

官方文档(https://docs.seldon.io/projects/seldon-core/en/latest/examples/autoscaling_example.html)中,自动伸缩的前提是使用metric-server,而metric-server没有自定义指标(仅 CPU/内存)。

我正在 AWS EKS 集群上使用 Nvidia 设备插件。

gpu autoscaling seldon seldon-core
1个回答
0
投票

由于我不是 AWS 架构师,请注意,下面提到的任何解决方案都不是最佳的。

  1. 首先,您需要确保您的集群安装了 NVIDIA 设备插件,以允许您在集群中运行支持 GPU 的容器。
  2. 为了使您的集群能够收集 Pod 请求的 GPU 资源,您需要安装 NVIDIA DCGM 导出器。请注意,k8s Metric Server 不支持收集 GPU 指标。 DCGM-Exporter 使用 Go 与 NVIDIA API 的绑定来收集 GPU 遥测数据,并允许您监控 GPU 运行状况和利用率。它为 prometheus 等监控工具提供了一个易于使用的 http 端点(/metrics)。
  3. 您需要安装监控系统prometheus stack和prometheus-adapter,它将提供监控NVIDIA DCGM导出器指标和收集数据的间隔。
  4. 您需要安装HPA(Horizontal Pod Autoscaler)来根据您的GPU资源进行扩展。例如,NVIDIA DCGM 导出器公开的 GPU 指标“DCGM_FI_DEV_GPU_UTIL”。

我找到了一个类似的文档,提供了上述步骤的具体步骤,请参考[1][2] 如果您想将 pod GPU 指标暴露给 ws cloudwatch,请参考[3]

参考:

[1] https://www.private-ai.com/2022/05/31/how-to-autoscale-kubernetes-pods-based-on-gpu/

[2] https://github.com/DevSecOpsSamples/eks-gpu-autoscaling

[3] https://aws.amazon.com/blogs/machine-learning/enable-pod-based-gpu-metrics-in-amazon-cloudwatch/

© www.soinside.com 2019 - 2024. All rights reserved.