如何多线程下载 HuggingFace 数据集?

问题描述 投票:0回答:1

我想下载 HuggingFace 数据集,例如

uonlp/CulturaX

from datasets import load_dataset
ds = load_dataset("uonlp/CulturaX", "en")

但是,它在一个线程上以 50 MB/s 的速度下载,而我的网络为 10 Gbps。由于这个数据集有 16 TB,我希望下载得更快,这样我就不必等待几天。如何多线程下载 HuggingFace 数据集?

python multithreading download huggingface huggingface-datasets
1个回答
0
投票

可以使用

num_proc
属性(感谢 Quentin Lhoest 指向我):

from datasets import load_dataset
ds = load_dataset("uonlp/CulturaX", "en", num_proc=8)

请注意,自问题发布以来,

uonlp/CulturaX
已被关闭。因此,必须首先在终端中运行:

huggingface-cli login --token $HUGGINGFACE_TOKEN

哪里可以找到

$HUGGINGFACE_TOKEN
https://huggingface.co/settings/tokens

© www.soinside.com 2019 - 2024. All rights reserved.