我正在设置Dask Python集群(30台机器,平均每台8个核心)。人们只使用其部分CPU功率,因此dask-workers
将以低优先级在后台运行。所有工作人员都在我的主节点上听dask-scheduler
。如果只有我使用它,它的工作完美,但它会被多个人同时使用 - 所以我需要能够管理这个集群:
dask.distributed out of box提供了一些上述功能。你可以请一些解决方案的建议(可能是混合Dask +的东西)?
通常人们使用像Kubernetes,Yarn,SLURM,SGE,PBS等集群管理器。该系统处理用户身份验证,资源管理等。然后,用户使用Dask-kubernetes,Dask-yarn,Dask-jobqueue项目之一根据需要在集群上创建自己的短期调度程序和工作程序。