使用自定义提取器在文档 AI 中自动标记：架构要求问题

Question

我正在使用 Document AI 和自定义提取器。当我创建新的自定义提取器时，它可以管理我的数据集。

我希望这样做会自动为我为此任务上传的文档创建标签名称。

此外，它还提供“自动标签”。我希望这甚至可以自动为我生成标签名称，保证不同自定义提取器之间的某种一致性。

我检查了旁边显示的“提示”按钮，它证实了我的想法：

当我检查自动标签时，系统会要求我选择“版本”。在这种情况下，我能够选择的唯一“版本”是“pretrained-foundation-model-v1.0-2023-08-22”。”

我这样做是因为我希望基础模型能够自动为我的文档分配标签名称。

我的文档上传正常，但随后我看到了以下消息：

{
  "name": "projects/xxxxxxxxx/locations/xxxxxxx/operations/xxxxxxx",
  "done": true,
  "result": "error",
  "response": {},
  "metadata": {
        "@type": "type.googleapis.com/google.cloud.documentai.uiv1beta3.ImportDocumentsMetadata",
        "commonMetadata": {
          "state": "FAILED",
          "createTime": "202x-xxx-xxT01:xx:45.367220Z",
          "updateTime": "202x-xxx-xxT01:xx:57.243001Z",
          "resource": "projects/xxxxxxx/locations/xxxxxx/processors/xxxxxxxxx/dataset"
        },
        "totalDocumentCount": 142
      },
      "error": {
        "code": 3,
        "message": "No valid schema provided for processing.",
        "details": []
      }
    }

我必须在那里做什么？

Answer 1

我自己最近才开始使用Document AI，但据我了解，这是因为您仍然需要创建标签的模式。 IE。模式让模型知道要寻找什么。否则它可能会标记所有内容（这可能不是所需的行为）。

预训练的模型能够自动标记文档 - 因此通常如果您将其命名为有意义的名称，它会选择它认为相关的字段。在示例中，架构标签为

supplier_name

、

receiver_name

和

ship_to_address

。

如果您单击导入的文档之一，它的左侧应该有一个创建新字段。您将需要设置标签名称以及您认为该字段在文档中出现的次数（单次或多次出现）。一旦你设置了这个，它应该会拾取该字段 - 尽管你也可以通过 UI 调整它拾取的内容。

您还可以将字段直接添加到架构中（在管理数据集中），但我喜欢查看一些导入的文件并在其中添加标签（要收集）。希望有帮助

使用自定义提取器在文档 AI 中自动标记：架构要求问题

问题描述投票：0回答：1

1个回答

最新问题

使用自定义提取器在文档 AI 中自动标记：架构要求问题

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1