使用自定义提取器在文档 AI 中自动标记:架构要求问题

问题描述 投票:0回答:1

我正在使用 Document AI 和自定义提取器。当我创建新的自定义提取器时,它可以管理我的数据集。

我希望这样做会自动为我为此任务上传的文档创建标签名称。

此外,它还提供“自动标签”。我希望这甚至可以自动为我生成标签名称,保证不同自定义提取器之间的某种一致性。

我检查了旁边显示的“提示”按钮,它证实了我的想法:

当我检查自动标签时,系统会要求我选择“版本”。在这种情况下,我能够选择的唯一“版本”是“pretrained-foundation-model-v1.0-2023-08-22”。”

我这样做是因为我希望基础模型能够自动为我的文档分配标签名称。

我的文档上传正常,但随后我看到了以下消息:

{
  "name": "projects/xxxxxxxxx/locations/xxxxxxx/operations/xxxxxxx",
  "done": true,
  "result": "error",
  "response": {},
  "metadata": {
        "@type": "type.googleapis.com/google.cloud.documentai.uiv1beta3.ImportDocumentsMetadata",
        "commonMetadata": {
          "state": "FAILED",
          "createTime": "202x-xxx-xxT01:xx:45.367220Z",
          "updateTime": "202x-xxx-xxT01:xx:57.243001Z",
          "resource": "projects/xxxxxxx/locations/xxxxxx/processors/xxxxxxxxx/dataset"
        },
        "totalDocumentCount": 142
      },
      "error": {
        "code": 3,
        "message": "No valid schema provided for processing.",
        "details": []
      }
    }

我必须在那里做什么?

cloud-document-ai
1个回答
0
投票

我自己最近才开始使用Document AI,但据我了解,这是因为您仍然需要创建标签的模式。 IE。模式让模型知道要寻找什么。否则它可能会标记所有内容(这可能不是所需的行为)。

预训练的模型能够自动标记文档 - 因此通常如果您将其命名为有意义的名称,它会选择它认为相关的字段。在示例中,架构标签为

supplier_name
receiver_name
ship_to_address

如果您单击导入的文档之一,它的左侧应该有一个创建新字段。您将需要设置标签名称以及您认为该字段在文档中出现的次数(单次或多次出现)。一旦你设置了这个,它应该会拾取该字段 - 尽管你也可以通过 UI 调整它拾取的内容。

您还可以将字段直接添加到架构中(在管理数据集中),但我喜欢查看一些导入的文件并在其中添加标签(要收集)。希望有帮助

© www.soinside.com 2019 - 2024. All rights reserved.