识别并纠正自然语言处理 (NLP) 的问答数据集中的错误

问题描述投票：0回答：0

如何识别和纠正包含错误的问答数据集，例如答案错误或信息缺失，并确保数据集的准确性？假设我有数千个问题+答案，它们的形式类似于斯坦福问答数据集 (SQuAD)，我想仔细检查其中的每一个。调整或纠正问答数据集的一些常用方法或最佳实践是什么？

例如，如果上下文的输入文本是这样的：

text = "Albert Einstein，（1879 年 3 月 14 日出生于德国符腾堡乌尔姆～1955 年 4 月 18 日逝世于美国新泽西州普林斯顿），出生于德国的物理学家，他发展了狭义和广义相对论并赢得了1921 年因对光电效应的解释而获得诺贝尔物理学奖。爱因斯坦通常被认为是 20 世纪最有影响力的物理学家。 `` 输出：

Q：一般认为谁最有影响力？（小姐姐物理学家）答：爱因斯坦问：什么是光电效应？ A: Albert Einstein (错误答案)

我检查了 QA 数据集作为 json 文件并尝试直接更正它，但是它非常慢并且很容易忘记更新文件中的所有内容。

nlp

dataset

stanford-nlp

data-cleaning

nlp-question-answering

识别并纠正自然语言处理 (NLP) 的问答数据集中的错误

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0