uonlp/CulturaX
:
from datasets import load_dataset
ds = load_dataset("uonlp/CulturaX", "en")
但是,它在一个线程上以 50 MB/s 的速度下载,而我的网络为 10 Gbps。由于这个数据集有 16 TB,我希望下载得更快,这样我就不必等待几天。如何多线程下载 HuggingFace 数据集?
num_proc
属性(感谢 Quentin Lhoest 指向我):
from datasets import load_dataset
ds = load_dataset("uonlp/CulturaX", "en", num_proc=8)
请注意,自问题发布以来,
uonlp/CulturaX
已被关闭。因此,必须首先在终端中运行:
huggingface-cli login --token $HUGGINGFACE_TOKEN
哪里可以找到
$HUGGINGFACE_TOKEN
https://huggingface.co/settings/tokens