从带图纸的专利中提取可编辑文本

从带图纸的专利中提取可编辑文本

问题描述投票：0回答：1

我有一堆专利的扫描图像，我需要以某种方式将其转换为某种可编辑的形式（最好是 docx）。以下是一页的示例：

我使用超立方体成功提取了文本（几乎，我在提取拉丁符号和下标时遇到了问题），但我不知道如何从文本中提取绘图。曾尝试使用 OpenCv 的精明边缘检测但没有成功。是否有一些 go to 方法来完成此类任务？可能是训练 yolo 或其他一些 CNN 或使用 opencv 中的其他算法？如果有人分享他们的经验，我将非常感激

conv-neural-network

ocr

tesseract

yolo

1个回答

0
投票

训练 YOLO 网络绝对是执行此任务的简单工作。这与我在工作中所做的非常接近。我有一些教程视频，展示如何训练神经网络来查找文本、图像、复选框等。这是我在我的频道上发布的许多此类教程之一：https://www.youtube.com/watch?v=XxhbXccHEpA

就我而言，我使用 libpoppler 将 PDF 文档转换为 PNG 图像。每页一张图像。然后 Darknet/YOLO 扫描每个图像，提取我需要的所有内容。

根据您发布的示例图像，页面和图像非常重复，因此我猜训练网络最多需要大约 30 分钟，如果您有不错的 NVIDIA GPU，则可能需要 15 分钟。

如果您想尝试一下，我建议从常见问题解答开始：https://www.ccoderun.ca/programming/yolo_faq/#how_to_get_started

另一个要查看的资源是 Darknet/YOLO 不和谐服务器：https://discord.gg/zSq8rtW

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1