我扫描了一本书并使用 ABBYYY 对它进行了 OCR 处理,但我真正关心的是 OCR 中的文本以及它是按页面组织的。有没有一种工具可以用来删除所有扫描的页面图像但保留所有 OCR 文本?我意识到那时人类无法阅读它,但这没关系,因为我正在使用 Python 脚本处理 PDF。
@johnwhitington 对这个问题的评论对我来说非常有用。但这不是答案。
cpdf -draft in.pdf -o out.pdf
您可以从 https://github.com/coherentgraphics/cpdf-binaries
获取 cpdf-draft
选项删除图像:
-draft Remove images from the file
当然,您首先需要确保文件中确实有文本 - 使用 Acrobat,这是 OCR 设置中的
editable text and images
选项 - 如果您可以复制一段文本并将其粘贴到外部并获得可读文本,那么您可能有一个适用于此目的的 pdf 文件。
这会产生完美的人类可读结果(显然,减去任何支持图形)。