OCR Tesseract:将标题与文本分开的选项

问题描述 投票:2回答:1

我正在使用tesseract(通过python包装器)以从文档中提取文本。这些文档不包含任何图像或表格,仅包含文本。

是否有其他选项可将标题/标题与文本区分开?理想情况下,我希望能够有一个像xml树之类的东西,而不是整个字符串链(我不需要对文档布局有任何了解)。

[我发现一些third party tools似乎可以提供帮助,但我想知道是否可以直接从tesseract进行。

enter image description here

ocr tesseract python-tesseract
1个回答
0
投票

您可以使用Nanonets OCR api创建用于分隔标题和文本的模型,也可以添加其他标签。

© www.soinside.com 2019 - 2024. All rights reserved.