如何用图像数据代替字体文件训练Tesseract 4？

问题描述投票：16回答：1

我想用图像代替字体来训练Tesseract 4。

在文件他们只解释了字体的方法，而不是图像。

我知道它是如何工作的，当我使用以前的Tesseract版本，但我没有得到如何使用boxtiff文件来训练与 LSTM 在魔方4中。

我研究了一下 tesstrain.sh，用于生成 LSTM 训练数据，但找不到任何有用的东西。有什么想法吗？

ocr

tesseract

lstm

training-data

1个回答

3
投票

你还需要克隆tessdata_best repo。https:/github.comtesseract-ocrtessdata_best。. 这作为你训练的起点。它需要几十万个训练数据样本才能获得准确度，所以使用一个好的起点可以让你用更少的数据来微调你的训练（大约几十个到几百个样本就够了）。

将你的训练样本添加到tesstrain repo中名为 ./tesstrain/data/my-custom-model-ground-truth

您的训练样本应该是共享相同名称但不同扩展名的imageetext文件对。例如，您应该有一个名为为 001.png 那是文字的图片 foobar 你应该有一个名为 001.gt.txt 该文本 foobar.

这些文件需要是单行文字。

在 tesstrain repo，运行这个命令。

make training MODEL_NAME=my-custom-model START_MODEL=eng TESSDATA=~/src/tessdata_best

一旦训练完成，就会有一个新文件 tesstraindata.traineddata. 将该文件复制到Tesseract搜索模型的目录中。在我的机器上，它是usrlocalsharetessdata。

然后，你就可以运行Tesseract，并将该模型作为一种语言。

tesseract -l my-custom-model foo.png -