ECS集群中运行的Jenkins Slave无法启动容器

Question

我在AWS ECS集群中使用Jenkins Slave，我的配置如下： ECS 中的 Jenkins。

正常情况下运行良好，但有时在高峰时段，从容器启动很慢，超过40分钟，甚至无法启动容器。

我必须终止 ECS 实例，然后启动一个新实例。当容器无法启动时，我在 ecs-agent 中看到日志：

已停止，原因 CannotCreateContainerError：API 错误（500）： devmapper：精简池有 788 个空闲数据块，小于最少需要 4454 个空闲数据块。在薄型中创造更多自由空间池或使用 dm.min_free_space 选项来更改行为

这是我的 docker 信息，请告诉我如何解决这个问题。

[root@ip-10-124-2-159 ec2-user]# docker info
Containers: 10
 Running: 1
 Paused: 0
 Stopped: 9
Images: 2
Server Version: 1.12.6
Storage Driver: devicemapper
 Pool Name: docker-docker--pool
 Pool Blocksize: 524.3 kB
 Base Device Size: 10.74 GB
 Backing Filesystem: ext4
 Data file:
 Metadata file:
 Data Space Used: 8.646 GB
 Data Space Total: 23.35 GB
 Data Space Available: 14.71 GB
 Metadata Space Used: 2.351 MB
 Metadata Space Total: 25.17 MB
 Metadata Space Available: 22.81 MB
 Thin Pool Minimum Free Space: 2.335 GB
 Udev Sync Supported: true
 Deferred Removal Enabled: true
 Deferred Deletion Enabled: true
 Deferred Deleted Device Count: 0
 Library Version: 1.02.93-RHEL7 (2015-01-28)
Logging Driver: json-file
Cgroup Driver: cgroupfs
Plugins:
 Volume: local
 Network: bridge host null overlay
Swarm: inactive
Runtimes: runc
Default Runtime: runc
Security Options:
Kernel Version: 4.4.39-34.54.amzn1.x86_64
Operating System: Amazon Linux AMI 2016.09
OSType: linux
Architecture: x86_64
CPUs: 2
Total Memory: 7.8 GiB
Name: ip-10-124-2-159
ID: 6HVT:TWH3:YP6T:GMZO:23TM:EUAA:F7XJ:ISII:QDE7:V2SN:XKFI:XPGZ
Docker Root Dir: /var/lib/docker
Debug Mode (client): false
Debug Mode (server): false
Registry: https://index.docker.io/v1/
Insecure Registries:
 127.0.0.0/8

而且我不知道为什么只能同时运行4个任务，即使ECS实例的资源仍然可用，我该如何增加它

Answer 1

当您经常启动和停止容器时，您的问题是一个非常常见的问题，您刚才提到的帖子就是关于这个问题的！他们特别指出：

“Amazon EC2 容器服务插件可以在您的自动将自己注册为 Jenkins 从属的 ECS 集群，在容器上执行适当的 Jenkins 作业，然后之后自动删除容器/构建从站”

这样做的问题是，如果不清理已停止的容器，您最终会耗尽内存，正如您所经历的那样。如果您

ssh

进入实例并运行以下命令，您可以自行检查：

docker ps -a

如果您在 Jenkins 遇到麻烦时运行此命令，您应该会看到几乎无穷无尽的已停止容器列表。您可以通过运行以下命令将它们全部删除：

docker rm -f $(docker ps -a -f status-exited)

但是，经常手动执行此操作确实不太方便，因此您真正想要做的是在启动 ECS 实例配置的 userData 参数中包含以下脚本：

ECS_ENGINE_TASK_CLEANUP_WAIT_DURATION=1m >> /etc/ecs/ecs.config
ECS_CLUSTER=<NAME_OF_CLUSTER> >> /etc/ecs/ecs.config
ECS_DISABLE_IMAGE_CLEANUP=false >> /etc/ecs/ecs.config
ECS_IMAGE_CLEANUP_INTERVAL=10m >> /etc/ecs/ecs.config
ECS_IMAGE_MINIMUM_CLEANUP_AGE=30m >> /etc/ecs/ecs.config

这将指示 ECS 代理启用清理守护进程，该守护进程每 10 分钟（这是您可以设置的最低间隔）检查要删除的映像，在任务停止后 1 分钟删除容器，并删除 30 分钟前的映像并且不再被活动任务定义引用。您可以在此处了解有关这些变量的更多信息。

根据我的经验，如果您非常快地启动和停止容器，此配置可能不够，因此您可能需要为实例附加一个合适的卷，以确保在守护进程清理容器时有足够的空间来继续运行。停止容器。

Answer 2

感谢何塞的回答。

但是，这个命令在 Docker 1.12 中对我有用。*

docker rm $(docker ps -aqf "status=exited")

标志'q'从结果中过滤containerId并将其删除。

Answer 3

如果您升级到最新的 AWS 客户端（或最新的 ECS AMI、amzn-ami-2017.09.d-amazon-ecs-optimized 或更高版本），则您可以在 ecs 中配置 ECS 自动清理失效映像、容器和卷为集群提供服务的 EC 主机的配置。

这会清理之后的和 node(label){} 子句，但不会在该构建期间清理 docker 执行。

节点容器及其卷 - 已清理
在该节点上执行的步骤生成的 docker 镜像 - 未清理

ECS对该节点上发生的情况一无所知。鉴于节点本身应该是最大的东西，ECS 自动清理应该将运行单独清理任务的需要减少到最低限度。

ECS集群中运行的Jenkins Slave无法启动容器

问题描述投票：0回答：3

3个回答

最新问题

ECS集群中运行的Jenkins Slave无法启动容器

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3