识别并纠正自然语言处理 (NLP) 的问答数据集中的错误

问题描述 投票:0回答:0

如何识别和纠正包含错误的问答数据集,例如答案错误或信息缺失,并确保数据集的准确性? 假设我有数千个问题+答案,它们的形式类似于斯坦福问答数据集 (SQuAD),我想仔细检查其中的每一个。 调整或纠正问答数据集的一些常用方法或最佳实践是什么?

例如,如果上下文的输入文本是这样的:

text = "Albert Einstein,(1879 年 3 月 14 日出生于德国符腾堡乌尔姆~1955 年 4 月 18 日逝世于美国新泽西州普林斯顿),出生于德国的物理学家,他发展了狭义和广义相对论并赢得了1921 年因对光电效应的解释而获得诺贝尔物理学奖。爱因斯坦通常被认为是 20 世纪最有影响力的物理学家。 `` 输出:

Q:一般认为谁最有影响力? (小姐姐物理学家) 答:爱因斯坦 问:什么是光电效应? A: Albert Einstein (错误答案)

我检查了 QA 数据集作为 json 文件并尝试直接更正它,但是它非常慢并且很容易忘记更新文件中的所有内容。

nlp dataset stanford-nlp data-cleaning nlp-question-answering
© www.soinside.com 2019 - 2024. All rights reserved.