我正在尝试跟踪和监视吊舱上线/正常运行/运行需要花费多少时间。
我正在使用EKS。而且我在群集上安装了HPA和cluster-autoscaler。
假设我有一个部署,其中HorizontalPodAutoscaler
缩放策略占targetAverageUtilization
的70%。因此,只要部署的平均利用率超过70%,HPA就会触发创建新的POD。现在,基于不同的因素,例如节点是否可用以及是否不可用,则需要下载映像或映像存在于高速缓存中,缩放可能需要几秒钟到几分钟的时间。
我想跟踪此时间/持续时间,每次计划POD时,要花费多少时间才能进入Running
状态。有什么建议么?
或我应该看的任何方向。
我找到了此Cluster Autoscaler Visibility Logs,但这仅在GCE中可用。
我正在寻找任何解决方案,可以是现成的集成,也可以引发事件并将其存储在某些时间序列数据库中,或者从Prometheus抓取数据。但是到目前为止,我找不到任何解决方案。
提前感谢。
开箱即用,您需要自己构建一些东西。