是否可以删除 PDF 的图像并仅保留 OCR 文本?

问题描述 投票:0回答:1

我扫描了一本书并使用 ABBYYY 对它进行了 OCR 处理,但我真正关心的是 OCR 中的文本以及它是按页面组织的。有没有一种工具可以用来删除所有扫描的页面图像但保留所有 OCR 文本?我意识到那时人类无法阅读它,但这没关系,因为我正在使用 Python 脚本处理 PDF。

macos pdf ocr abbyy
1个回答
0
投票

@johnwhitington 对这个问题的评论对我来说非常有用。但这不是答案。

cpdf -draft in.pdf -o out.pdf

您可以从 https://github.com/coherentgraphics/cpdf-binaries

获取 cpdf

-draft
选项删除图像:

  -draft Remove images from the file

当然,您首先需要确保文件中确实有文本 - 使用 Acrobat,这是 OCR 设置中的

editable text and images
选项 - 如果您可以复制一段文本并将其粘贴到外部并获得可读文本,那么您可能有一个适用于此目的的 pdf 文件。

这会产生完美的人类可读结果(显然,减去任何支持图形)。

© www.soinside.com 2019 - 2024. All rights reserved.