Dask Locality,如何从本地工作文件中读取?

问题描述 投票:0回答:1

我正在尝试从每个工作人员读取一个唯一的本地文件,但是我在所有工作人员中得到的结果相同,而不是每个工作人员都得到一个唯一的结果...。有人可以指出我做错了什么吗?

from dask.distributed import Client, progress
c = Client()
c

import dask.dataframe as dd

filename_1='/tmp/1990.csv'
filename_2='/tmp/1991.csv'
filename_3='/tmp/1992.csv'

future_1 = c.submit(dd.read_csv,filename_1 , workers='172.18.0.3')
future_2 = c.submit(dd.read_csv,filename_2 , workers='172.18.0.5')
future_3 = c.submit(dd.read_csv, filename_3 , workers='172.18.0.6')

future_1.result().head()
future_2.result().head()
future_3.result().head()

我将获得相同的结果,而不是每个人的唯一数据。

dask dask-distributed dask-delayed
1个回答
0
投票

您可能想在这里使用pandas.read_csv而不是dask.dataframe.read_csv

https://docs.dask.org/en/latest/delayed-best-practices.html#don-t-call-dask-delayed-on-other-dask-collections

© www.soinside.com 2019 - 2024. All rights reserved.