Dask：DataFrame永远需要计算

Question

我从大约5万行和5列的Pandas数据框中创建了Dask数据框：

ddf = dd.from_pandas(df, npartitions=32)

然后我在数据框中添加一列（〜30）列，并尝试将其变回Pandas数据框：

DATA = ddf.compute(get = dask.multiprocessing.get)

我查看了文档，如果未指定num_workers，则默认使用所有内核。我在64核EC2实例上，上面的代码行已经花了几分钟没有完成...

知道如何加快速度或我做错了什么吗？

谢谢！

Answer 1

我建议尝试减少线程数量并增加进程数量以帮助加快处理速度。