任何人都可以澄清,YARN是否可以抢占Spark驱动程序,因为应用程序消耗的资源超过了其队列允许的资源?
此问题来自于产品集群上的场景:
ERROR | SIGTERM handler | org.apache.spark.executor.CoarseGrainedExecutorBackend | RECEIVED SIGNAL TERM
)ERROR | SIGTERM handler | org.apache.spark.deploy.yarn.ApplicationMaster | RECEIVED SIGNAL TERM
。 NM日志只是说驱动程序容器被杀死:Stopping container with container Id: app1_driver_containerId
。 我在文档中找不到任何证据可以证明RM可以杀死应用程序母版。 Docs说,它礼貌地要求master释放资源,而我却没有释放它们,然后强行杀死了容器。它可以杀死AM吗?
简短的回答是,尽管有添加故障单的标签以避免https://issues.apache.org/jira/browse/YARN-9537。