将文件扫描为可搜索的PDF-工作流程是什么? [关闭]

问题描述 投票:0回答:3

我最近购买了爱普生扫描仪,因此可以开始数字化多年来积累的大量文件。我已经学习了如何将文档扫描为PDF。但是,我想确保我的PDF包含可搜索的文本-我认为技术术语是OCR,但我感到非常困惑。

我可以单独使用扫描仪将文件扫描为PDF。但是,如果我理解正确,除非使Adobe Acrobat和/或ABBYY Fine Reader成为工作流程的一部分,否则我无法使它们成为OCR可搜索的。 (顺便说一下,我使用的是运行Mavericks的Mac。)

我想我首先要问的是:创建OCR可搜索的PDF需要什么软件?就像我说的那样,我已经安装了Epson扫描仪软件,但是看起来我也需要Acrobat和/或ABBYY Fine Reader。

我想我应该问的第二个问题是我怎么知道PDF是否包含可搜索的文本?我可以使用Dreamweaver或Apple的Spotlight等标准程序在PDF页面上简单地搜索单词或短语吗?谢谢。

pdf
3个回答
1
投票

扫描仪生成图像并将其保存为图像格式或PDF格式。然后,您可以在OCR软件(例如ABBYY Fine Reader)中打开结果。您还可以在Acrobat中打开它,因为Acrobat本身内置了OCR组件。如果您使用的是Acrobat,则您将具有可搜索的文档,除非Acrobat无法找到任何可读字符。其他OCR软件可能会保存PDF或其他文件格式。

另一个答案中提到了另一种产品;我不知道,但是值得一看。

第二个问题:

a)有一个Acrobat JavaScript Doc对象方法getPageNumWords();如果此方法返回的数字大于0,则作为参数传递的页面具有可搜索的文本。您可以在Acrobat JavaScript文档中找到有关此方法的更多信息,该文档是Acrobat SDK的一部分,可从Adobe网站下载。

b)进行预检检查,以查明页面/文档是否具有Text对象。如果是这样,它具有可搜索的文本。但是,您将为此需要Acrobat Pro。


1
投票

您可以扫描到多页TIFF图像,并让Tesseract 3.03为您创建可搜索的PDF。


0
投票

大多数解决方案是使用扫描仪生成图像文件(如不可搜索的PDF),然后将您的身体从扫描仪移到计算机上,登录,运行价格昂贵的ABBSGDS之类的软件,然后单击大量的菜单按钮,响应大量的对话框,在观看OCR进度栏时旋转手指,瞧瞧-可搜索的PDF。

或者,您可以购买佳能扫描仪(例如DR-M160)并使用其免费的CaptureOnTouch软件。在这种情况下,您将文档放在扫描仪中,在扫描仪上选择一个号码,然后按扫描。几秒钟后(即使在速度较慢的计算机上),一个完整的OCRd可搜索PDF将在目录中编程为您选择的编号。您甚至不需要触摸计算机(当然,它必须打开)

我认为,对于繁忙的办公环境,每天要扫描数十个多页文档,其他任何事情都是毫无价值的。我,例如,站在我的扫描仪快速连续地逐个文档插入的情况下。我从来没有去过我的电脑,而且我所有的文档都是可搜索的PDF,几乎与放入它们一样快。

[如果有人知道仅适用于普通扫描仪的那种工作流程的软件解决方案,请告诉我。我只是买了一个Lexmark多功能机而犯了一个错误,因为Lexmark多功能机是随ABBYY一起提供的,无论哪种软件实际上都是一个多功能机。

© www.soinside.com 2019 - 2024. All rights reserved.