如何使用 Huggingface 从字符串列表中创建数据集,以使用 Transformer 库微调 Llama 2?

问题描述 投票:0回答:1

我有一个字符串列表,我想用它们来微调 Llama 2。列表中的每个条目都包含几个句子。

我需要将其转换为正确的格式才能使用 Transformer 库的 Trainer。但我在网上似乎没有找到任何东西。这应该是一个非常基本的问题?

我不需要验证数据集。只是通过

将数据集输入训练器的一种方法
trainer = transformers.Trainer(model=model,train_dataset=dataset,... )

这是我尝试过的:

from datasets import Dataset

dataset = Dataset.from_list(list)
python dataset huggingface-transformers huggingface-datasets fine-tune
1个回答
0
投票

这最终对我有用:

import pandas as pd
df = pd.DataFrame(list)

from datasets import Dataset
dataset = Dataset.from_pandas(df.rename(columns={0: "train"}), split="train")

然后对数据进行标记:

tokenized_dataset = dataset.map(lambda samples: tokenizer(samples["train"]), batched=True)
© www.soinside.com 2019 - 2024. All rights reserved.