如何在下载完成后只下载 HuggingFace 数据集的 .parquet 文件而不生成 .arrow 文件?

问题描述 投票:0回答:1

我想下载 HuggingFace 数据集的所有 .parquet 文件,例如

uonlp/CulturaX
,下载完成后不会生成 .arrow 文件。

如果我使用:

from datasets import load_dataset
ds = load_dataset("uonlp/CulturaX", "ar")

它将下载 HuggingFace 数据集的所有 .parquet 文件,但下载完成后还将生成 .arrow 文件:

  • downloads
    包含 .parquet 文件。
  • uonlp___cultura_x
    包含 .arrow 文件。

如何在下载完成后只下载 HuggingFace 数据集的 .parquet 文件而不生成 .arrow 文件?

python download parquet huggingface huggingface-datasets
1个回答
0
投票

我的解决方法:

from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="uonlp/CulturaX",
    repo_type="dataset",
    local_dir="data",
    local_dir_use_symlinks=False,
    allow_patterns=["ar/*.parquet"],
    token="..."
)
© www.soinside.com 2019 - 2024. All rights reserved.