如何使用 Google Document AI OCR 查找文本文档中的非文本图像？

Question

我正在使用 Google Document AI Enterprise OCR 来 OCR 图像（旧书的扫描_，效果很好。这些书在页面上的各个位置都有数字。我想使用 API 来查找这些数字，并区分它们来自文本和空白。我可以这样做吗？

我尝试了

visual_elements

属性，但它是空白的。从文档来看，这似乎只找到复选框和表单字段，而不是其他视觉元素。

我的目标是将这些旧书数字化为 HTML，通过 OCR 转换文本，但按原样复制图像。扫描件是书的每页一个 PNG。

Answer 1

我目前没有看到任何文档或处理器可以做到这一点？但是 In Vision API 有一个功能可以检测图像文件中的多个图像，我想知道您是否可以将文件转换为图像并使用此功能作为解决方法。

否则我建议将其作为功能请求在这里请求：