我从大约5万行和5列的Pandas数据框中创建了Dask数据框:
ddf = dd.from_pandas(df, npartitions=32)
然后我在数据框中添加一列(〜30)列,并尝试将其变回Pandas数据框:
DATA = ddf.compute(get = dask.multiprocessing.get)
我查看了文档,如果未指定num_workers
,则默认使用所有内核。我在64核EC2实例上,上面的代码行已经花了几分钟没有完成...
知道如何加快速度或我做错了什么吗?
谢谢!
我建议尝试减少线程数量并增加进程数量以帮助加快处理速度。