如何用图像数据代替字体文件训练Tesseract 4?

问题描述 投票:16回答:1

我想用图像代替字体来训练Tesseract 4。

文件 他们只解释了字体的方法,而不是图像。

我知道它是如何工作的,当我使用以前的Tesseract版本,但我没有得到如何使用boxtiff文件来训练与 LSTM 在魔方4中。

我研究了一下 tesstrain.sh,用于生成 LSTM 训练数据,但找不到任何有用的东西。有什么想法吗?

ocr tesseract lstm training-data
1个回答
3
投票

克隆tesstrain repo的网址是 https:/github.comtesseract-ocrtesstrain。.

你还需要克隆tessdata_best repo。https:/github.comtesseract-ocrtessdata_best。. 这作为你训练的起点。它需要几十万个训练数据样本才能获得准确度,所以使用一个好的起点可以让你用更少的数据来微调你的训练(大约几十个到几百个样本就够了)。

将你的训练样本添加到tesstrain repo中名为 ./tesstrain/data/my-custom-model-ground-truth

您的训练样本应该是共享相同名称但不同扩展名的imageetext文件对。例如,您应该有一个名为为 001.png 那是文字的图片 foobar 你应该有一个名为 001.gt.txt 该文本 foobar.

这些文件需要是单行文字。

tesstrain repo,运行这个命令。

make training MODEL_NAME=my-custom-model START_MODEL=eng TESSDATA=~/src/tessdata_best

一旦训练完成,就会有一个新文件 tesstraindata.traineddata. 将该文件复制到Tesseract搜索模型的目录中。在我的机器上,它是usrlocalsharetessdata。

然后,你就可以运行Tesseract,并将该模型作为一种语言。

tesseract -l my-custom-model foo.png -

© www.soinside.com 2019 - 2024. All rights reserved.