是否可以删除 PDF 的图像并仅保留 OCR 文本？

Question

我扫描了一本书并使用 ABBYYY 对它进行了 OCR 处理，但我真正关心的是 OCR 中的文本以及它是按页面组织的。有没有一种工具可以用来删除所有扫描的页面图像但保留所有 OCR 文本？我意识到那时人类无法阅读它，但这没关系，因为我正在使用 Python 脚本处理 PDF。

Answer 1

@johnwhitington 对这个问题的评论对我来说非常有用。但这不是答案。

cpdf -draft in.pdf -o out.pdf

获取 cpdf

-draft

选项删除图像：

  -draft Remove images from the file

当然，您首先需要确保文件中确实有文本 - 使用 Acrobat，这是 OCR 设置中的

editable text and images

选项 - 如果您可以复制一段文本并将其粘贴到外部并获得可读文本，那么您可能有一个适用于此目的的 pdf 文件。

这会产生完美的人类可读结果（显然，减去任何支持图形）。