Dask:DataFrame永远需要计算

问题描述 投票:3回答:1

我从大约5万行和5列的Pandas数据框中创建了Dask数据框:

ddf = dd.from_pandas(df, npartitions=32)

然后我在数据框中添加一列(〜30)列,并尝试将其变回Pandas数据框:

DATA = ddf.compute(get = dask.multiprocessing.get)

我查看了文档,如果未指定num_workers,则默认使用所有内核。我在64核EC2实例上,上面的代码行已经花了几分钟没有完成...

知道如何加快速度或我做错了什么吗?

谢谢!

python pandas dask
1个回答
0
投票

我建议尝试减少线程数量并增加进程数量以帮助加快处理速度。

© www.soinside.com 2019 - 2024. All rights reserved.