我手动设置了一个dask-scheduler和一个dask-worker。他们看到对方的日志。
我的大文件位于同一台机器上而不是调度程序(我的jupyter笔记本也运行)。
但是当我用dd.read_csv
加载我的文件时,我有常见的No such a file or directory
错误。
我理解数据局部性问题但是如何透明地将我的文件发送到集群?
我在documentation resource或data locality找不到(或理解?)
您可以将文件作为Python对象(如pandas dataframe或numpy数组)加载到笔记本中,然后将其分散到worker中。你也可以看看Client.upload_file
方法。