当我持续使用Dask-ML时超过可用内存时该怎么办

Question

我正在使用Dask-ML运行一些代码，这些代码在训练期间会占用大量RAM内存。训练数据集本身并不大，但是它是在训练期间使用了相当多的RAM内存。即使我尝试为n_jobs使用不同的值，我仍然收到以下错误消息：

distributed.nanny - WARNING - Worker exceeded 95% memory budget. Restarting

我该怎么办？

Ps：我也尝试过使用Kaggle内核（最多可支持16GB RAM），但这不起作用。所以我现在正在尝试Dask-ML。我还使用其默认参数值通过以下代码连接到Dask集群：

from dask.distributed import Client
import joblib

client = Client()

with joblib.parallel_backend('dask'):
    # My own codes

我正在使用Dask-ML运行一些代码，这些代码在训练期间会占用大量RAM内存。训练数据集本身并不大，但是它是在训练期间使用了相当多的RAM内存。我保持...

Answer 1

Dask上有详细的页面介绍有关帮助memory management的技术。您可能也对configuring spilling to disk Dask workers感兴趣。例如，宁可