Google Vision OCR数据表单

问题描述 投票:1回答:2

我正在探索适用于OCR的Google Vision API。我们有许多由用户计算机生成和填充的表单。像医疗报告和登记表一样。我们需要处理这些图像并从中获取角色。我已经尝试过Google Vision API,并且在计算机生成表单的情况下它的工作效果很好,但手工填充的却产生了问题。如果将表格填入y轴上方的数据,那么单词将被视为上一行/下一行。以下是输出

Study Contact Name:
Test

预期

Study Contact Name: Test

The Form used

代码参考:https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java

有没有办法在一行中得到它,或者了解它是否属于该行?

在这种情况下可以提供帮助的任何其他API?

ocr google-vision
2个回答
0
投票

“在这种情况下可以提供帮助的任何其他API”,如果您的意思是OCR API,我认为手写文档没有任何表现,或者至少没有明显优于Google。

无论如何,我个人使用的一种可能的方法是创建自己的方法来影响一行到字母/单词。

这样,您可以控制可以将多少距离视为单词之间的相同“线”。

Google API会为您识别的每个字母提供X和Y位置信息。因此,您可以简单地遍历所有字母或单词,并将它们包含在同一行中,如果它们是Y位置的> =或<=到(例如2像素)。


0
投票

有没有办法在一行中得到它,或者了解它是否属于该行?

这可以解决,但需要一些编码:

所有单词都带有边界框返回。所以你需要做的是查看边界框的坐标,然后,根据你对模板的知识(谷歌没有),决定一个单词属于哪一行。

© www.soinside.com 2019 - 2024. All rights reserved.