关于表单识别器的容器,OCR和labeltool容器

问题描述 投票:0回答:2

我们正在尝试使用表单识别器,OCR和labeltool的容器预览,并有以下问题:

  1. 是否有任何软件可以帮助我们对相似​​类型的文档进行分类。这将有助于我们对文档进行分类并创建训练数据集
  2. 有什么方法可以给模型用户定义名称。以下是模型查询API的输出。很难将其绑定到其他类型的模型:
{
    "modelId": "f136f65b-bb94-493b-a798-a3e8023ea1b5",
    "status": "ready",
    "createdDateTime": "2020-05-06T21:35:58+00:00",
    "lastUpdatedDateTime": "2020-05-06T21:36:06+00:00"
}
  1. 我可以看到存储在\ output \ subscriptions \ global \ models中的模型文件,其中docker中的/ output目录共享容器组成了文件。是否可以将此模型导入新容器。

    • 模型具有与模型ID相同的nae的json和gz文件
    • 我还将附加docker compose文件供您参考
  2. 是否可以使用模型训练数据微调或更新相同的自定义模型(相同的模型ID)>
  3. 我们也在尝试使用labeltool,但是它仅将Azure blob作为输入。是否可以提供与培训表单识别器相同的输入。我们正在努力获取此设置,如果未解决,我们可能会开始寻找替代方法。

我们正在尝试使用表单识别器,OCR和labeltool的容器预览,并且存在以下问题:是否有任何软件可以帮助我们对相似​​类型的文档进行分类。这将...

azure containers microsoft-cognitive form-recognizer
2个回答
0
投票

以下是您的问题的答案:1.要对文档进行分类,您可以使用自定义视觉构建文档分类器,也可以使用文本分类和OCR。此外,您可以使用不带标签的Form Recognizer训练在训练数据上运行它,并使用模型中的cluster选项对训练日期集中的相似文档和页面进行分类。2.友好的模型名称在Form Recognizer中尚不可用,这是我们路线图上的未来功能,但尚不可用。3.无法在容器之间复制模型,可以使用相同的数据集在另一个容器中训练模型。使用Form Recognizer云服务时,可以在订阅,资源和区域之间复制模型。4.每列火车都会创建一个新的模型ID,以便不覆盖您无法更新现有模型的先前模型。5.容器中尚未提供Form Recognizer v2.0版本,容器中目前仅提供Form Recognizer v1.0版本。 Form Recognizer v2.0也将很快在容器中提供。当使用容器发布时,所有数据仍保留在内部,并且一旦适用于v2.0容器发布的标签工具也将使用本地或已安装的磁盘作为输入,而不是blob。

© www.soinside.com 2019 - 2024. All rights reserved.