从表单中的图像中提取信息

问题描述 投票:0回答:1

我有一些表格,上面填有姓名:某事姓氏:某事等等。所有页面的格式都相似。 我有这种形式的图像。首先我通过 tesseract(python) 从图像中提取文本,然后我尝试将每个页面转换为字典: { "page1":{"name":"某事","family_name":"某事",etc} 哪种方法最好?我使用了正则表达式,但它没有给我带来好的结果,因为例如名称可能会在 tesseract 输出中作为 nqme 返回?最好的开源解决方案是什么?我应该改变超正方体吗?有没有可以用正则表达式替换的机器学习模型?我应该使用图像处理吗?如何训练模型来学习我的表单模式以提取数据。

我尝试了 tesseract 和 regex,但结果不好,因为图像质量不好。

python nlp ocr tesseract named-entity-recognition
1个回答
0
投票

我发现您希望首先从图像表单中检测字段,然后使用 ocr 模型从这些字段中获取文本,在这种情况下,我推荐检测器facterrcnn 更快的 rccn 检测器,用于提取框,例如将

name
放置在表单中 + easyocr 以便从此框进行文本识别。对于结构化图像形式来说,这是非常好的解决方案

© www.soinside.com 2019 - 2024. All rights reserved.