从带图纸的专利中提取可编辑文本

问题描述 投票:0回答:1

我有一堆专利的扫描图像,我需要以某种方式将其转换为某种可编辑的形式(最好是 docx)。以下是一页的示例:

我使用超立方体成功提取了文本(几乎,我在提取拉丁符号和下标时遇到了问题),但我不知道如何从文本中提取绘图。曾尝试使用 OpenCv 的精明边缘检测但没有成功。 是否有一些 go to 方法来完成此类任务?可能是训练 yolo 或其他一些 CNN 或使用 opencv 中的其他算法? 如果有人分享他们的经验,我将非常感激

conv-neural-network ocr tesseract yolo
1个回答
0
投票

训练 YOLO 网络绝对是执行此任务的简单工作。这与我在工作中所做的非常接近。我有一些教程视频,展示如何训练神经网络来查找文本、图像、复选框等。这是我在我的频道上发布的许多此类教程之一:https://www.youtube.com/watch?v=XxhbXccHEpA

就我而言,我使用 libpoppler 将 PDF 文档转换为 PNG 图像。每页一张图像。然后 Darknet/YOLO 扫描每个图像,提取我需要的所有内容。

根据您发布的示例图像,页面和图像非常重复,因此我猜训练网络最多需要大约 30 分钟,如果您有不错的 NVIDIA GPU,则可能需要 15 分钟。

如果您想尝试一下,我建议从常见问题解答开始:https://www.ccoderun.ca/programming/yolo_faq/#how_to_get_started

另一个要查看的资源是 Darknet/YOLO 不和谐服务器:https://discord.gg/zSq8rtW

© www.soinside.com 2019 - 2024. All rights reserved.