在我的大学,我们必须使用 Kubernetes 在 GPU 集群上运行作业。我想训练一个深度学习模型,它作为具有以下 Dockerfile 的 Docker 容器工作:
FROM python:latest
WORKDIR /tmp
COPY train.py ./
COPY utils.py ./
COPY models/ ./models
COPY datasets/ ./datasets
COPY install_requirements.sh ./
RUN bash install_requirements.sh
ENTRYPOINT ["python", "train.py"]
通过 Kubernetes 运行这个 docker 容器的最简单方法是什么?我见过的所有 Kubernetes 教程都太过分了——我不需要部署任何东西,只需执行 python 脚本(这应该需要几个小时),并检索它创建的日志文件。
您需要定义一个部署来指定要运行的 Docker 容器
替换为您的 Docker 映像名称和容器侦听的端口。
使用 kubectl apply 命令将 YAML 文件应用到 Kubernetes 集群。(kubectl apply -f .yaml)
替换为您的 YAML 文件的名称。
使用以下命令检查部署和正在运行的 Pod 的状态: kubectl 获取部署 kubectl 获取 pods
apiVersion: apps/v1
kind: Deployment
metadata:
name: my-deployment
spec:
replicas: 1
selector:
matchLabels:
app: my-app
template:
metadata:
labels:
app: my-app
spec:
containers:
- name: my-container
image: <your-docker-image>
ports:
- containerPort: <container-port>