将文件扫描为可搜索的PDF-工作流程是什么？ [关闭]

我最近购买了爱普生扫描仪，因此可以开始数字化多年来积累的大量文件。我已经学习了如何将文档扫描为PDF。但是，我想确保我的PDF包含可搜索的文本-我认为技术术语是OCR，但我感到非常困惑。

我可以单独使用扫描仪将文件扫描为PDF。但是，如果我理解正确，除非使Adobe Acrobat和/或ABBYY Fine Reader成为工作流程的一部分，否则我无法使它们成为OCR可搜索的。（顺便说一下，我使用的是运行Mavericks的Mac。）

我想我首先要问的是：创建OCR可搜索的PDF需要什么软件？就像我说的那样，我已经安装了Epson扫描仪软件，但是看起来我也需要Acrobat和/或ABBYY Fine Reader。

我想我应该问的第二个问题是我怎么知道PDF是否包含可搜索的文本？我可以使用Dreamweaver或Apple的Spotlight等标准程序在PDF页面上简单地搜索单词或短语吗？谢谢。

1
投票

扫描仪生成图像并将其保存为图像格式或PDF格式。然后，您可以在OCR软件（例如ABBYY Fine Reader）中打开结果。您还可以在Acrobat中打开它，因为Acrobat本身内置了OCR组件。如果您使用的是Acrobat，则您将具有可搜索的文档，除非Acrobat无法找到任何可读字符。其他OCR软件可能会保存PDF或其他文件格式。

另一个答案中提到了另一种产品；我不知道，但是值得一看。

第二个问题：

a）有一个Acrobat JavaScript Doc对象方法getPageNumWords（）;如果此方法返回的数字大于0，则作为参数传递的页面具有可搜索的文本。您可以在Acrobat JavaScript文档中找到有关此方法的更多信息，该文档是Acrobat SDK的一部分，可从Adobe网站下载。

b）进行预检检查，以查明页面/文档是否具有Text对象。如果是这样，它具有可搜索的文本。但是，您将为此需要Acrobat Pro。

1
投票

您可以扫描到多页TIFF图像，并让Tesseract 3.03为您创建可搜索的PDF。

0
投票

大多数解决方案是使用扫描仪生成图像文件（如不可搜索的PDF），然后将您的身体从扫描仪移到计算机上，登录，运行价格昂贵的ABBSGDS之类的软件，然后单击大量的菜单按钮，响应大量的对话框，在观看OCR进度栏时旋转手指，瞧瞧-可搜索的PDF。

或者，您可以购买佳能扫描仪（例如DR-M160）并使用其免费的CaptureOnTouch软件。在这种情况下，您将文档放在扫描仪中，在扫描仪上选择一个号码，然后按扫描。几秒钟后（即使在速度较慢的计算机上），一个完整的OCRd可搜索PDF将在目录中编程为您选择的编号。您甚至不需要触摸计算机（当然，它必须打开）

我认为，对于繁忙的办公环境，每天要扫描数十个多页文档，其他任何事情都是毫无价值的。我，例如，站在我的扫描仪快速连续地逐个文档插入的情况下。我从来没有去过我的电脑，而且我所有的文档都是可搜索的PDF，几乎与放入它们一样快。

[如果有人知道仅适用于普通扫描仪的那种工作流程的软件解决方案，请告诉我。我只是买了一个Lexmark多功能机而犯了一个错误，因为Lexmark多功能机是随ABBYY一起提供的，无论哪种软件实际上都是一个多功能机。

问题描述投票：0回答：3

3个回答

最新问题

将文件扫描为可搜索的PDF-工作流程是什么？ [关闭]

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3