Google Vision OCR数据表单

Question

我正在探索适用于OCR的Google Vision API。我们有许多由用户计算机生成和填充的表单。像医疗报告和登记表一样。我们需要处理这些图像并从中获取角色。我已经尝试过Google Vision API，并且在计算机生成表单的情况下它的工作效果很好，但手工填充的却产生了问题。如果将表格填入y轴上方的数据，那么单词将被视为上一行/下一行。以下是输出

Study Contact Name:
Test

预期

Study Contact Name: Test

The Form used

代码参考：https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java

有没有办法在一行中得到它，或者了解它是否属于该行？

在这种情况下可以提供帮助的任何其他API？

Answer 1

“在这种情况下可以提供帮助的任何其他API”，如果您的意思是OCR API，我认为手写文档没有任何表现，或者至少没有明显优于Google。

无论如何，我个人使用的一种可能的方法是创建自己的方法来影响一行到字母/单词。

这样，您可以控制可以将多少距离视为单词之间的相同“线”。

Google API会为您识别的每个字母提供X和Y位置信息。因此，您可以简单地遍历所有字母或单词，并将它们包含在同一行中，如果它们是Y位置的> =或<=到（例如2像素）。

Answer 2

有没有办法在一行中得到它，或者了解它是否属于该行？

这可以解决，但需要一些编码：

所有单词都带有边界框返回。所以你需要做的是查看边界框的坐标，然后，根据你对模板的知识（谷歌没有），决定一个单词属于哪一行。

Google Vision OCR数据表单

问题描述投票：1回答：2

2个回答

最新问题

Google Vision OCR数据表单

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2