我有一个已经训练有素的知识工作室模型正在运行。我已将其部署在自然语言理解服务中。 NLU提供的实体和关系并不总是精确的,所以我试图让最终用户纠正提取信息中的错误并用他的反馈改进模型。
由于已经训练过的模型可以导出到WKS的新实例,其内容(句子,单词和带注释的相关实体和关系)以JSON格式构造,易于理解;我想知道是否可以使用相同的结构来标记新文档文本并将其上传到WKS以反映用户反馈,并希望改进模型。
好吧,我通过尝试找到了答案。我从Knowledge Studio下载了语料库,并分析了每个文件(内部文件夹“./gt”)的JSON结构。
在每个文件的末尾,以前注释的每个实体都有JSON条目,因此我以它们为例。对于每个条目,有一个id,其中一个值为句号,另一个为提及号(两者都是连续的,从零开始)。每个句子的提及编号重新开始,每个句子被分开(至少我注意到),“\ n”,以及“。”(注意“。”之后的空格)。此外,每个条目在提及的开头和结尾都有一个字符数值。计算字符时,系统不考虑“\”字符。以下是它的外观示例。
{
"id" : "s3-m0", //id for the first mention in the fourth sentence
"properties" : {
"SIRE_MENTION_TYPE" : "NONE",
"SIRE_MENTION_CLASS" : "SPC",
"SIRE_ENTITY_SUBTYPE" : "NONE",
"SIRE_MENTION_ROLE" : "TEST_ENTITY" // mention name
},
"type" : "TEST_ENTITY", // mention name again
"begin" : 11, // beginning of the mention
"end" : 19, // end of the mention
"inCoref" : false
}
如果您要标记新提及(以前未包含在类型系统中),则必须先手动创建它。将此条目添加到每个JSON后,将修改后的语料库上传到Knowledge Studio,并创建包含上载文档的注释集。然后,创建一个新任务来注释该新集,您应该看到该文档已经使用您手动添加的条目进行了注释。因此,在提交文档并接受任务之后,模型已准备好使用这些新示例进行培训。我认为手动注释关系应该类似。
希望这有助于其他人!