我已经使用以下Python代码下载了HuggingFace数据集(
uonlp/CulturaX
):
from datasets import load_dataset
ds = load_dataset("uonlp/CulturaX", "ar")
它下载了 HuggingFace 数据集的所有 .parquet 文件,并在下载完成后生成了 .arrow 文件:
downloads
包含 .parquet 文件(原始数据集数据文件和格式)。uonlp___cultura_x
包含 .arrow 文件。如何以编程方式删除 HuggingFace 保存在磁盘上的所有数据集?我想删除生成的 .arrow 文件和原始数据集数据文件。有一些Python函数可以做到这一点吗?
有很多不同的方法可以实现这一点。最简单的可能是使用标准库中的
shutil
--
import shutil
shutil.rmtree("/path/to/.cache/huggingface/datasets")