什么是崩溃环?

问题描述 投票:1回答:1

我正在阅读谷歌的网站可靠性工程书,并遇到了我以前从未听说过的崩溃循环这个词,并且无法找到定义

“如果一个任务试图使用比它请求的资源更多的资源,Borg会杀死任务并重新启动它(因为缓慢崩溃的任务通常比任何尚未重新安排的任务更好)。”

什么是崩溃循环?如果有的话,它与无限循环相比如何?

crash distributed-system sysadmin reliability
1个回答
1
投票

崩溃循环是指进程崩溃并由监视程序守护程序无限期重新启动。

也就是说,历史是:

  • 流程从时间T开始。
  • 进程在时间T + 1崩溃。
  • Watchdog守护程序重新启动进程。
  • 过程在时间T + 2开始。
  • 进程在时间T + 3崩溃。
  • Watchdog守护程序重新启动进程。
  • 流程开始......等等。

这里,监视程序守护程序是Borg,并且该进程被封装到任务中。


一般而言,在分布式计算中,如果您希望某些东西最终成功,您必须写下您的意图,以便完成它,并且您需要一个工作人员不断循环以对此意图采取行动。这是工作项的“至少一次交付”。

这里的意图是任务运行(写入Borg),Borg本身正在运行循环,不断尝试确保任务运行。这就是当任务崩溃时重新启动的原因。当一个任务反复崩溃时,你最终会遇到一个崩溃循环。

© www.soinside.com 2019 - 2024. All rights reserved.