EC2 ARM 实例随机崩溃“ens5 无法设置 DHCPv4 地址:连接超时”

问题描述 投票:0回答:1

在运行良好 7 个月后,我在 Arm 上运行的 AWS Ec2 实例随机开始出现此问题。有时每天一次,有时每周一次,这是不一致的。他是我已经探索过的一些东西:

  • CPU 没有最大化或接近,运行 8 个核心,我用 go 编写的应用程序从未使用超过 4 个核心,并且 CPU 使用率没有超过 50%。
  • 磁盘空间为 56%。
  • 内存容量为 15GB,我们从未接近过最大容量。
  • 我们为磁盘空间运行 EBS。
  • VPC 没有任何变化。

据我所知,问题是 EC2 实例使用 Systemd 通过 DHCP 实例设置内部网络地址。当此操作失败时,实例将不再像在 VPC 中一样运行,然后 SnapD 和其他服务崩溃,并且系统需要重新启动才能再次访问它。

我在日志中没有发现任何内容可以指出为什么会发生这种情况,它只是随机出现在下面。

我读过很多其他讨论 ens5 问题的帖子,但它们似乎都不适用于我们拥有的参数。对这里发生的事情有什么想法吗?

Aug 12 17:02:55 systemd-networkd[491]: ens5: Could not set DHCPv4 address: Connection timed out
Aug 12 17:03:04 systemd-networkd[491]: ens5: Failed
Aug 12 17:04:05 systemd[1]: snapd.service: Watchdog timeout (limit 5min)!
Aug 12 17:04:19 systemd[1]: snapd.service: Killing process 545 (snapd) with signal SIGABRT.
amazon-web-services amazon-ec2 systemd dhcp
1个回答
0
投票

看起来您可能会遇到 systemd-networkd 的这个问题,而不是“处理 DHCPv4 刷新的 netlink 重新配置阶段的超时”。这似乎是 systemd-networkd 中的一个错误。

” 复制步骤:

  1. 在具有 DHCPv4 服务器的网络上配置具有 DHCPv4 租约的计算机。
  2. 将机器置于足以导致网络链接请求超时的异常负载下。
  3. 观察接口失败并显示以下日志:
systemd-networkd[139370]: eth0: Could not set DHCPv4 address: Connection timed out
systemd-networkd[139370]: eth0: Failed

在基于信用的虚拟化计算环境中,以异常高的负载产生这种情况似乎更容易/更常见。”

© www.soinside.com 2019 - 2024. All rights reserved.