到位修改大于内存的Dask数组

问题描述 投票:1回答:1

我有一个dask数组,X,即约。 3500 x 700000.每行都有缺少的值,我需要根据该行的平均值来估算。

目前这个数组存储为一个dask数组,我有一个可以执行插补的延迟函数。然而,当我使用计算方法时,内存会填满,因为它似乎试图让我使用numpy数组。

有没有办法我可以在数组上应用这种插补,这样我最终得到的插补数组作为内存不足的数组?

python arrays dask
1个回答
1
投票

当您将延迟函数应用于dask数组时,它必须将您的数组转换为单个numpy数组。见http://dask.pydata.org/en/latest/delayed-best-practices.html#don-t-call-dask-delayed-on-other-dask-collections

您可能需要考虑对数组进行分块,以便行以单个块的形式然后使用map_blocks

© www.soinside.com 2019 - 2024. All rights reserved.