从内存文本加载huggingface数据集

问题描述 投票:0回答:1

我有内存中的文本,json 格式,我正在尝试直接从内存中的文本加载数据集(HuggingFace)。

如果我将其保存到文件中 - 我可以使用 Huggingface load_dataset 加载数据集:

from datasets import load_dataset
dataset = load_dataset('json', data_files='my_file.json')

另请参阅:https://huggingface.co/docs/datasets/v1.11.0/loading_datasets.html#from-local-files

我可以直接从内存中的文本加载数据集而不将其保存到文件中吗?

dataset huggingface
1个回答
0
投票

从 json 构建一个字典,然后自己构建数据集对象:


import json
import datasets

the_json_string = "..." # you define this obviously

the_dict = json.loads(the_json_string) # loads builds a dict from a string

dataset_object = datasets.Dataset.from_dict(the_dict)

查看

datasets.Dataset.from_dict
的文档,了解具体如何实现此功能:

https://huggingface.co/docs/datasets/v2.2.1/en/package_reference/main_classes#datasets.Dataset.from_dict

© www.soinside.com 2019 - 2024. All rights reserved.