我正在使用 Document AI 和自定义提取器。当我创建新的自定义提取器时,它可以管理我的数据集。
我希望这样做会自动为我为此任务上传的文档创建标签名称。
此外,它还提供“自动标签”。我希望这甚至可以自动为我生成标签名称,保证不同自定义提取器之间的某种一致性。
我检查了旁边显示的“提示”按钮,它证实了我的想法:
当我检查自动标签时,系统会要求我选择“版本”。在这种情况下,我能够选择的唯一“版本”是“pretrained-foundation-model-v1.0-2023-08-22”。”
我这样做是因为我希望基础模型能够自动为我的文档分配标签名称。
我的文档上传正常,但随后我看到了以下消息:
{
"name": "projects/xxxxxxxxx/locations/xxxxxxx/operations/xxxxxxx",
"done": true,
"result": "error",
"response": {},
"metadata": {
"@type": "type.googleapis.com/google.cloud.documentai.uiv1beta3.ImportDocumentsMetadata",
"commonMetadata": {
"state": "FAILED",
"createTime": "202x-xxx-xxT01:xx:45.367220Z",
"updateTime": "202x-xxx-xxT01:xx:57.243001Z",
"resource": "projects/xxxxxxx/locations/xxxxxx/processors/xxxxxxxxx/dataset"
},
"totalDocumentCount": 142
},
"error": {
"code": 3,
"message": "No valid schema provided for processing.",
"details": []
}
}
我必须在那里做什么?
我自己最近才开始使用Document AI,但据我了解,这是因为您仍然需要创建标签的模式。 IE。模式让模型知道要寻找什么。否则它可能会标记所有内容(这可能不是所需的行为)。
预训练的模型能够自动标记文档 - 因此通常如果您将其命名为有意义的名称,它会选择它认为相关的字段。在示例中,架构标签为
supplier_name
、receiver_name
和 ship_to_address
。
如果您单击导入的文档之一,它的左侧应该有一个创建新字段。您将需要设置标签名称以及您认为该字段在文档中出现的次数(单次或多次出现)。一旦你设置了这个,它应该会拾取该字段 - 尽管你也可以通过 UI 调整它拾取的内容。
您还可以将字段直接添加到架构中(在管理数据集中),但我喜欢查看一些导入的文件并在其中添加标签(要收集)。希望有帮助