如何训练 Azure 表单识别器识别可选字段?

问题描述 投票:0回答:2

我正在尝试训练一个模型,但是,我的数据集的一个字段是可选的。分析文档时,模型没有返回预期结果。

蓝色字段代表我要映射的字段。在文档 1 中,它不存在,因此,返回应该为空。

在文档 2 中,该字段存在并且模型能够检索数据。

当该值不存在时,模型会映射到另一个随机字段,例如“Nome Fantasia”,而不是返回空。

如何告诉 Azure 表单识别器该字段可能存在或不存在?

或者,第二个问题,我如何通知模型该值位于“Data de fim da sanção”标签下方?

artificial-intelligence azure-cognitive-services azure-form-recognizer
2个回答
0
投票

是的,您可以使用 OCR 来提取和标记数据,它与预先训练的模型配合使用,可以识别文档中的键值对、文本和表格以及作为输入上传的文件中的表格内容。即使文件中间的段落和表格内容包含大量文本或在任何地方,它也会被识别。

标注OCR文件请参考此链接

我用表单识别器重现了类似的问题,请参阅此SO线程和github链接


0
投票

请问是否可以训练或微调任何与 Azure 完全无关的 Azure 文档智能(表单识别器)模型?我的意思是,在本地没有 Azure 的 API 密钥或端点?

© www.soinside.com 2019 - 2024. All rights reserved.