在所有dask.distributed worker / scheduler中维护一个git仓库

问题描述 投票:1回答:1

对于所有Dask(分布式)工作者/调度员来说,了解自定义git仓库的python模块的最佳方法是什么?

如果对git仓库的新提交以同样的方式反映在Dask工作者/调度程序上,将是一个加号。

我尝试了以下操作:

((1)使用client.upload_file API,将文件从主节点复制到工作节点。逐个复制文件会丢失模块/目录结构,因此先压缩文件然后再上传就可以了。但是对git信息库的更新不会反映在主节点和辅助节点的压缩信息库中。

((2)(来自Amazon EMR))在引导脚本中,我包括“ pip install git + https://github.com/my_repo.git”,以便在集群实例化时所有节点都将拥有存储库。但与(1)相同; git存储库的更新不会反映在site-packages /下的已安装软件包中。

dask dask-distributed
1个回答
0
投票

Dask不管理用户软件环境。人们通常使用Docker映像或网络文件系统(NFS)处理此问题

© www.soinside.com 2019 - 2024. All rights reserved.