如何使用 Huggingface 从字符串列表中创建数据集，以使用 Transformer 库微调 Llama 2？

Question

我有一个字符串列表，我想用它们来微调 Llama 2。列表中的每个条目都包含几个句子。

我需要将其转换为正确的格式才能使用 Transformer 库的 Trainer。但我在网上似乎没有找到任何东西。这应该是一个非常基本的问题？

我不需要验证数据集。只是通过

将数据集输入训练器的一种方法

trainer = transformers.Trainer(model=model,train_dataset=dataset,... )

这是我尝试过的：

from datasets import Dataset

dataset = Dataset.from_list(list)

Answer 1

这最终对我有用：

import pandas as pd
df = pd.DataFrame(list)

from datasets import Dataset
dataset = Dataset.from_pandas(df.rename(columns={0: "train"}), split="train")

然后对数据进行标记：

tokenized_dataset = dataset.map(lambda samples: tokenizer(samples["train"]), batched=True)

如何使用 Huggingface 从字符串列表中创建数据集，以使用 Transformer 库微调 Llama 2？

问题描述投票：0回答：1

1个回答

最新问题

如何使用 Huggingface 从字符串列表中创建数据集，以使用 Transformer 库微调 Llama 2？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1