如何多线程下载 HuggingFace 数据集？

Question

我想下载 HuggingFace 数据集，例如

uonlp/CulturaX

：

from datasets import load_dataset
ds = load_dataset("uonlp/CulturaX", "en")

但是，它在一个线程上以 50 MB/s 的速度下载，而我的网络为 10 Gbps。由于这个数据集有 16 TB，我希望下载得更快，这样我就不必等待几天。如何多线程下载 HuggingFace 数据集？

Answer 1

可以使用

num_proc

属性（感谢 Quentin Lhoest 指向我）：

from datasets import load_dataset
ds = load_dataset("uonlp/CulturaX", "en", num_proc=8)

请注意，自问题发布以来，

uonlp/CulturaX

已被关闭。因此，必须首先在终端中运行：

huggingface-cli login --token $HUGGINGFACE_TOKEN

哪里可以找到

$HUGGINGFACE_TOKEN