格式化拥抱脸部的问题/答案数据

问题描述 投票:0回答:1

我有一个 csv,其中包含 id、context、question、answer_start 和 text 字段。我想将其导入 Hugging Face 作为问答训练的数据集,格式类似于 Squad

Hugging Face 期望将answer_start 和文本字段耦合到答案中,我无法将数据放入正确加载的表单中

尝试过的事情:将 csv 加载到 pandas 中,然后

    df['answers'] = df.apply(lambda x: {"answer_start": x.answer_start, "text": x.text}, 
    df = df[['id','question','context','answers']]
    train_dataset = datasets.Dataset.from_pandas(df)

有什么建议吗?

huggingface-datasets squad
1个回答
0
投票

我的工作如下

df['answers'] = df.apply(lambda x: {"answer_start": [x.answer_start], "text": [x.text]}
© www.soinside.com 2019 - 2024. All rights reserved.