我正在建立一个OCR。为此,我使用CNN
,RNN
和CTC
损失函数。我的输入层获取图像和输出层预测写在该图像上的内容。标签转换为整数。
['A', 'B', 'C'] -> A = 0, B = 1, C = 2
如果图像是ABC,训练标签将是0,1,2(单行向量)
我能够在单线上实现这一目标。例如。 'ABCDE
'写在图像上,模型效果很好。但如果图像是
'ABC'
'CAB'
那么培训标签应该是什么?如何告诉模型下一行?我想在多条线上训练一个模型。
您想要识别包含多行的文档的文本。有两种方法可以实现这一目标:
[1] Bunke,Marti:IAM数据库:用于离线手写识别的英语句子数据库。通过Springer下载
[2] Bluche:用于端到端手写段落识别的联合线分割和转录。通过https://arxiv.org/abs/1604.08352下载
[3] Bluche:扫描,出席和阅读。请参阅http://www.tbluche.com/scan_attend_read.html并查找“使用MDLSTM和CTC进行手写识别”和“折叠层及其建议的替换”