我试图让dask.dataframe默认使用本地分布式调度程序,但是从阅读Dask文档了解如何做到这一点上,我还不清楚。像下面这样满足吗?
from dask import distributed
from dask import dataframe as dd
client = distributed.Client(processes=True) # use multi processing
dask.config.set(scheduler=client)
dd.merge(df1, df2, on='some_col')
是的:如果创建任何种类的分布式Client
,它将成为进行进一步Dask计算的默认调度程序。