Dask.distributed集群管理

问题描述 投票:0回答:1

我正在设置Dask Python集群(30台机器,平均每台8个核心)。人们只使用其部分CPU功率,因此dask-workers将以低优先级在后台运行。所有工作人员都在我的主节点上听dask-scheduler。如果只有我使用它,它的工作完美,但它会被多个人同时使用 - 所以我需要能够管理这个集群:

  • 验证用户,拒绝未知数
  • 确定谁提交了哪些工作
  • 限制每个用户提交的作业数量
  • 限制每个作业的计算超时
  • 以管理员身份杀死任何工作

dask.distributed out of box提供了一些上述功能。你可以请一些解决方案的建议(可能是混合Dask +的东西)?

python dask dask-distributed
1个回答
0
投票

通常人们使用像Kubernetes,Yarn,SLURM,SGE,PBS等集群管理器。该系统处理用户身份验证,资源管理等。然后,用户使用Dask-kubernetes,Dask-yarn,Dask-jobqueue项目之一根据需要在集群上创建自己的短期调度程序和工作程序。

© www.soinside.com 2019 - 2024. All rights reserved.