我想下载 HuggingFace 数据集的所有 .parquet 文件,例如
uonlp/CulturaX
,下载完成后不会生成 .arrow 文件。
如果我使用:
from datasets import load_dataset
ds = load_dataset("uonlp/CulturaX", "ar")
它将下载 HuggingFace 数据集的所有 .parquet 文件,但下载完成后还将生成 .arrow 文件:
downloads
包含 .parquet 文件。uonlp___cultura_x
包含 .arrow 文件。如何在下载完成后只下载 HuggingFace 数据集的 .parquet 文件而不生成 .arrow 文件?
我的解决方法:
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="uonlp/CulturaX",
repo_type="dataset",
local_dir="data",
local_dir_use_symlinks=False,
allow_patterns=["ar/*.parquet"],
token="..."
)