超正方体最好的图像输入类型是什么？

超正方体最好的图像输入类型是什么？

问题描述投票：0回答：4

我正在一个项目中使用 tesseract，并且想知道 tesseract 的最佳图像输入类型以提供最佳输出。 Binary&TIFF 是最好的输入还是还有其他输入？

image-processing

ocr

tesseract

4个回答

12
投票

我过去使用 TIFF 来完成类似的任务，取得了出色的结果。当时我使用 OpenCV 做了一些“预处理”，并将结果导出到 TIFF 文件，然后将其发送到 tesseract。已经很不错了。

5
投票

最初的 Tesseract 程序只能处理 TIFF 文件，这让我相信它是最合适的

0
投票

pdfimages -list

，我发现它以与输入相同的 dpi 输出 .ccitt 和 .jpeg 的组合。然后，尝试使用 imagemagic 将其转换为较低 dpi 或其他压缩效果不佳。

我发现的替代方法是首先使用 imagemagic 将所有 .tif 转换为 .png。然后将 .png 逐一输入到 tesseract，为每个 .png 生成一个 .pdf。在这种情况下，.pdf 现在包含光栅图像。然后可以使用 imagemagic 将它们组合并重新编码。

我在这里看到的唯一缺点是，

tesseract 正在学习，因为它是 OCR 文档（我不知道它是，但可能是），那么我们希望立即给它整个文档，而不是一次不止一页。

0
投票

pdfimage -tiff in.pdf page ; convert page-*.tif document.tif ; tesseract document.tif document --psm 1 --oem 1 pdf

比使用 PNG 慢得多（约 20%）：

pdfimages -png in.pdf page ; for png in *.png; do tesseract... ; done ; pdfunite page*.pdf document.pdf

但是

生成的 pdf 文件要大得多。 Measured on MAC M1 (10CPU) - 3456x4704 400dpi pages 6 ocr's in parallel TIF: Time: 1466 Pages: 2520 Docs: 100 Sec/Page: 0.581746 PNG: Time: 2703 Pages: 5620 Docs: 180 Sec/Page: 0.480961

问题描述 投票：0回答：4

4个回答

最新问题

问题描述投票：0回答：4