尝试从 S3 存储桶动态加载数据集进行训练。这些将是位于 S3 存储桶内子文件夹中的 json 文件。
在我的主要训练脚本中,我有这个:
train_ds, dev_ds, test_ds = load_dataset(path='.../datasets/hf_datasets/custom.py', split=["train", "validation", "test"])
在我的 custom.py 脚本中,我需要将 {SubfolderDatasetName} 替换为我的数据集名称。当我在主训练脚本中调用 load_dataset 函数时,如何传递该数据集名称?查看文档,config_kwargs** 似乎是答案,但我还没有找到任何有关如何使用它的示例。
class Custom(datasets.GeneratorBasedBuilder):
_URL = "https://test1234.s3.amazonaws.com/{SubfolderDatasetName}/"
_URLS = {
"train": _URL + "train.json",
"dev": _URL + "dev.json",
}
def _split_generators(self, dl_manager):
urls_to_download = self._URLS
downloaded_files = dl_manager.download_and_extract(urls_to_download)
print(downloaded_files)
return [
datasets.SplitGenerator(
name=datasets.Split.TRAIN,
gen_kwargs={"filepath": os.path.join(dl_dir, "docvqa_En", "train.json")},
),
datasets.SplitGenerator(
name=datasets.Split.VALIDATION,
gen_kwargs={"filepath": os.path.join(dl_dir, "docvqa_En", "dev.json")},
),
datasets.SplitGenerator(
name=datasets.Split.TEST,
gen_kwargs={"filepath": os.path.join(dl_dir, "docvqa_En", "test.json")},
),
]
目前无法传参