带有GPU的GCP kubernetes节点被抢占太早了

问题描述 投票:0回答:1

我有一个kubeflow k8s集群,在us-central1-a处具有定制的GPU驱动的可抢占节点池:enter image description here

我在这些GPU节点上运行kubeflow笔记本服务器。由于某些神秘的原因,节点在启动后不久(5-10分钟)会收到compute.instances.preempted消息:enter image description here

为什么会这样?

kubernetes google-cloud-platform google-kubernetes-engine kubeflow
1个回答
0
投票

由于您已经创建了可抢占节点池,因此这几乎是预期的行为。 GCE可以终止可抢占的实例at any time,并且您唯一真正保证的是,如果实例运行,您将无需为该实例付费(但需要为任何所请求的高级OS付费,而COS并非其中之一)不到一分钟的时间(当然,它们将始终在24小时后被抢占)。

GPU节点的需求可能很高,并且与其他可抢占实例一样,这将取决于特定区域和一天中的时间。如果需要实例保持可用状态,则应使用全价实例。使用GKE,有一种方法可以autoscale GPU nodes帮助控制成本。

© www.soinside.com 2019 - 2024. All rights reserved.