超正方体最好的图像输入类型是什么?

问题描述 投票:0回答:4

我正在一个项目中使用 tesseract,并且想知道 tesseract 的最佳图像输入类型以提供最佳输出。 Binary&TIFF 是最好的输入还是还有其他输入?

image-processing ocr tesseract
4个回答
12
投票

我过去使用 TIFF 来完成类似的任务,取得了出色的结果。当时我使用 OpenCV 做了一些“预处理”,并将结果导出到 TIFF 文件,然后将其发送到 tesseract。已经很不错了。


5
投票

最初的 Tesseract 程序只能处理 TIFF 文件,这让我相信它是最合适的


0
投票
pdfimages -list

,我发现它以与输入相同的 dpi 输出 .ccitt 和 .jpeg 的组合。然后,尝试使用 imagemagic 将其转换为较低 dpi 或其他压缩效果不佳。


我发现的替代方法是首先使用 imagemagic 将所有 .tif 转换为 .png。然后将 .png 逐一输入到 tesseract,为每个 .png 生成一个 .pdf。在这种情况下,.pdf 现在包含光栅图像。然后可以使用 imagemagic 将它们组合并重新编码。

我在这里看到的唯一缺点是,

if

tesseract 正在学习,因为它是 OCR 文档(我不知道它是,但可能是),那么我们希望立即给它整个文档,而不是一次不止一页。


0
投票

pdfimage -tiff in.pdf page ; convert page-*.tif document.tif ; tesseract document.tif document --psm 1 --oem 1 pdf

比使用 PNG 慢得多(约 20%):

pdfimages -png in.pdf page ; for png in *.png; do tesseract... ; done ; pdfunite page*.pdf document.pdf

但是

生成的 pdf 文件要大得多。 Measured on MAC M1 (10CPU) - 3456x4704 400dpi pages 6 ocr's in parallel TIF: Time: 1466 Pages: 2520 Docs: 100 Sec/Page: 0.581746 PNG: Time: 2703 Pages: 5620 Docs: 180 Sec/Page: 0.480961

© www.soinside.com 2019 - 2024. All rights reserved.