如何使用分布式dask调度程序在worker上加载文件?

问题描述 投票:1回答:1

我手动设置了一个dask-scheduler和一个dask-worker。他们看到对方的日志。

我的大文件位于同一台机器上而不是调度程序(我的jupyter笔记本也运行)。

但是当我用dd.read_csv加载我的文件时,我有常见的No such a file or directory错误。

我理解数据局部性问题但是如何透明地将我的文件发送到集群?

我在documentation resourcedata locality找不到(或理解?)

dask dask-distributed
1个回答
1
投票

您可以将文件作为Python对象(如pandas dataframe或numpy数组)加载到笔记本中,然后将其分散到worker中。你也可以看看Client.upload_file方法。

© www.soinside.com 2019 - 2024. All rights reserved.