HuggingFace load_dataset config_kwargs

问题描述 投票:0回答:0

尝试从 S3 存储桶动态加载数据集进行训练。这些将是位于 S3 存储桶内子文件夹中的 json 文件。

在我的主要训练脚本中,我有这个:

train_ds, dev_ds, test_ds = load_dataset(path='.../datasets/hf_datasets/custom.py', split=["train", "validation", "test"])

在我的 custom.py 脚本中,我需要将 {SubfolderDatasetName} 替换为我的数据集名称。当我在主训练脚本中调用 load_dataset 函数时,如何传递该数据集名称?查看文档,config_kwargs** 似乎是答案,但我还没有找到任何有关如何使用它的示例。

class Custom(datasets.GeneratorBasedBuilder):
    _URL = "https://test1234.s3.amazonaws.com/{SubfolderDatasetName}/"
    _URLS = {
        "train": _URL + "train.json",
        "dev": _URL + "dev.json",
    }

 def _split_generators(self, dl_manager):

        urls_to_download = self._URLS
        downloaded_files = dl_manager.download_and_extract(urls_to_download)
        print(downloaded_files)

        return [
            datasets.SplitGenerator(
                name=datasets.Split.TRAIN,
                gen_kwargs={"filepath": os.path.join(dl_dir, "docvqa_En", "train.json")},
            ),
            datasets.SplitGenerator(
                name=datasets.Split.VALIDATION,
                gen_kwargs={"filepath": os.path.join(dl_dir, "docvqa_En", "dev.json")},
            ),
            datasets.SplitGenerator(
                name=datasets.Split.TEST,
                gen_kwargs={"filepath": os.path.join(dl_dir, "docvqa_En", "test.json")},
            ),
        ]

目前无法传参

amazon-s3 huggingface-datasets
© www.soinside.com 2019 - 2024. All rights reserved.