我正在一个项目中使用 tesseract,并且想知道 tesseract 的最佳图像输入类型以提供最佳输出。 Binary&TIFF 是最好的输入还是还有其他输入?
最初的 Tesseract 程序只能处理 TIFF 文件,这让我相信它是最合适的
pdfimages -list
,我发现它以与输入相同的 dpi 输出 .ccitt 和 .jpeg 的组合。然后,尝试使用 imagemagic 将其转换为较低 dpi 或其他压缩效果不佳。
我发现的替代方法是首先使用 imagemagic 将所有 .tif 转换为 .png。然后将 .png 逐一输入到 tesseract,为每个 .png 生成一个 .pdf。在这种情况下,.pdf 现在包含光栅图像。然后可以使用 imagemagic 将它们组合并重新编码。
我在这里看到的唯一缺点是,
iftesseract 正在学习,因为它是 OCR 文档(我不知道它是,但可能是),那么我们希望立即给它整个文档,而不是一次不止一页。
pdfimage -tiff in.pdf page ;
convert page-*.tif document.tif ;
tesseract document.tif document --psm 1 --oem 1 pdf
比使用 PNG 慢得多(约 20%):
pdfimages -png in.pdf page ;
for png in *.png; do
tesseract... ;
done ;
pdfunite page*.pdf document.pdf
生成的 pdf 文件要大得多。
Measured on MAC M1 (10CPU) - 3456x4704 400dpi pages 6 ocr's in parallel
TIF: Time: 1466 Pages: 2520 Docs: 100 Sec/Page: 0.581746
PNG: Time: 2703 Pages: 5620 Docs: 180 Sec/Page: 0.480961