我有一个字符串列表,我想用它们来微调 Llama 2。列表中的每个条目都包含几个句子。
我需要将其转换为正确的格式才能使用 Transformer 库的 Trainer。但我在网上似乎没有找到任何东西。这应该是一个非常基本的问题?
我不需要验证数据集。只是通过
将数据集输入训练器的一种方法trainer = transformers.Trainer(model=model,train_dataset=dataset,... )
这是我尝试过的:
from datasets import Dataset
dataset = Dataset.from_list(list)
这最终对我有用:
import pandas as pd
df = pd.DataFrame(list)
from datasets import Dataset
dataset = Dataset.from_pandas(df.rename(columns={0: "train"}), split="train")
然后对数据进行标记:
tokenized_dataset = dataset.map(lambda samples: tokenizer(samples["train"]), batched=True)