Dask Dataframe - 小型数据框架的许多任务分区。

问题描述 投票:1回答:1

我一直在使用Dask来处理大型数据框,并做像joinsfilters这样的事情。最终的结果是一个我知道有8行的数据框。然而,如果我的Dask数据框架是 f,在这里我检查 f 我得到 npartitions=81Dask Name: assign, 10633 tasks. 为什么会这样?我花了近5个小时写进一个.h5文件,才发现结果中只有8行。有什么办法能让我加快这个速度吗?

分区的数量是81个,似乎太多。我把它降低到5个,但还是花了4个小时。

python pandas dataframe dask
1个回答
0
投票

这应该没有关系。 最后,你会有很多空的分区,但这是确定的。 如果你是关于这一点,那么你可以随时调用 df.repartition(1).

输出的分区数是输入分区数和您所做的操作的函数。 然而,它并没有考虑到您的数据值(所有这些都是在 Dask 查看您的数据之前确定的)。

如果Dask速度很慢,那么我建议看看Dask文档中的 "理解性能 "页面,以了解原因。

https:/docs.dask.orgenlatestunderstanding-performance.html。

© www.soinside.com 2019 - 2024. All rights reserved.