我有一个Snakemake工作流,我一直在使用它来训练DL TensorFlow模型。在一个高层次上,有一些运行时间较长的作业(模型训练),可以并行运行。我想在云上运行这些作业,并且 dask-cloudprovider
似乎是一个很有前途的选择,因为我可以 在ECS上轻松地利用GPU。. 要做到这一点,虽然,我必须使用Dask函数重写我的工作流程(也许是 dask delayed
)? 还是有什么方法可以让Snakemake使用Dask?
如果你在网络上搜索 "dask snakemake",你会发现一个2017年的Github问题,你可能想读一读。 这当然是可能的,但需要有人来写集成。
你可能还想尝试Dask与Airflow的集成,或者,也许更现代一点,Prefect库。
我从来没有听说过dask,而且我也不使用云,所以我可能完全不知道。
我不明白为什么snakemake和dask不能很好地相互配合。难道你做不到吗。
rule one:
input: ...
output: 'out.txt',
run:
from dask_cloudprovider import FargateCluster
# Do stuff
rule two:
input:
'out.txt',
output:
...
run:
# Do stuff with out.txt