如何从非ASCII编码PDF剪切粘贴?

问题描述 投票:7回答:7

我有一些PDF文件,我试图削减他们的Acrobat Reader软件包含文本粘贴到HTML表单。看来,某些文件的使用(我怀疑)的Unicode文本编码,所以当我尝试粘贴到HTML表单(在Firefox)我得到的小盒子,在他们的十六进制字符,而不是可读文本。这个问题是不是该PDF尚未进行光学字符识别 - 当我尝试这样做,在的Acrobat Pro它说,它不能因为文件中已经包含渲染文本。有什么办法来处理这个?例如,我可以添加某种JavaScript来,会做转换的形式?

pdf unicode acrobat
7个回答
9
投票

你能粘贴文本从文件复制到记事本等或Word或其他任何其他程序?

某些PDF文件,但是没有说是从他们的文字提取成功的关键特殊信息产生的。即使是由Adobe工具。基本上,这样的文件不包含字形到​​字符的映射信息。

这样的文件将显示和打印就好了,但是从他们的文本不能正确地复制/提取。

例如,当使用“最小文件大小”预设的Distiller产生这样的文件。


5
投票

我有同样的问题......事实上,这是在这里解释:http://forums.adobe.com/thread/915012

我的解决办法是使用Acrobat的导出工具将PDF转换成Word,然后解压,我从它需要的信息。

这是令人沮丧,但这项工作。

我发现另一种解决方案是将转换PDF中的图像(JPEG,PNG等),然后运行OCR处理。


2
投票

这是很可能的是,文字中包含的得到正确复制的字符,但您的浏览器无法显示它们,由于缺乏合适的字体。 PDF文档可能包含嵌入字体,因此Adobe Reader的显示字符OK,但浏览器无法获得这些字体。

您可以检查这是否是试图复制和粘贴在这里的角色的原因(这可能是有关该问题的有用的信息呢)。你也可以下载并安装Code200x fonts,其中包含相当多你通常可以期望遇到任何字符。 (这是不能保证的,但很可能,在需要的时候Firefox将能够自动使用这些字体。)


2
投票
  1. 选择Acrobat中的文本。
  2. 右键单击,然后从上下文菜单中选择“复制与格式”。
  3. 等待进度条来处理文本。
  4. 贴字文件内。

1
投票

我们有类似的问题,试图从PDF文件到Excel中复制/粘贴cyrillics。

我们发现,最简单的解决方案是用浏览器(Chrome,Mozilla或歌剧)及复印件打开.PDF /粘贴在Word,Excel中的文本。

它不与IE浏览器,符合市场预期。


0
投票

我有同样的问题,但我通过网络浏览器(在我的情况铬)打开PDF文件解决它。复制和粘贴非ASCII编码的镀铬工作正常。


0
投票

您可以从Acrobat导出为JPEG格式,然后打开在Acrobat(不是阅读器)的JPEG然后运行OCR工具。从那里,你应该能够复制/粘贴。

© www.soinside.com 2019 - 2024. All rights reserved.