我有一个小集群,我使用以下方法部署一个dask图:
from dask.distributed import Client
...
client = Client(f'{scheduler_ip}:{scheduler_port}', set_as_default=False)
client.get(workflow, final_node)
在工作流程中,我有一堆并行运行的任务。但是,有时候,一个工作程序正在运行的模块中存在错误。一旦该模块失败,它就会返回到调度程序,然后调度程序停止并行运行的其他工作(即使其他工作不依赖于此工作)。它阻止他们在中游。
反正是否允许其他人完成,然后失败,而不是立即关闭他们?
Client.get
功能是全有或全无。你应该看一下期货界面。在这里,您将启动许多恰好相互依赖的计算。可以完成的将完成。