如何从非ASCII编码PDF剪切粘贴？

我有一些PDF文件，我试图削减他们的Acrobat Reader软件包含文本粘贴到HTML表单。看来，某些文件的使用（我怀疑）的Unicode文本编码，所以当我尝试粘贴到HTML表单（在Firefox）我得到的小盒子，在他们的十六进制字符，而不是可读文本。这个问题是不是该PDF尚未进行光学字符识别 - 当我尝试这样做，在的Acrobat Pro它说，它不能因为文件中已经包含渲染文本。有什么办法来处理这个？例如，我可以添加某种JavaScript来，会做转换的形式？

9
投票

你能粘贴文本从文件复制到记事本等或Word或其他任何其他程序？

某些PDF文件，但是没有说是从他们的文字提取成功的关键特殊信息产生的。即使是由Adobe工具。基本上，这样的文件不包含字形到字符的映射信息。

这样的文件将显示和打印就好了，但是从他们的文本不能正确地复制/提取。

例如，当使用“最小文件大小”预设的Distiller产生这样的文件。

5
投票

我有同样的问题......事实上，这是在这里解释：http://forums.adobe.com/thread/915012

我的解决办法是使用Acrobat的导出工具将PDF转换成Word，然后解压，我从它需要的信息。

这是令人沮丧，但这项工作。

我发现另一种解决方案是将转换PDF中的图像（JPEG，PNG等），然后运行OCR处理。

2
投票

这是很可能的是，文字中包含的得到正确复制的字符，但您的浏览器无法显示它们，由于缺乏合适的字体。 PDF文档可能包含嵌入字体，因此Adobe Reader的显示字符OK，但浏览器无法获得这些字体。

您可以检查这是否是试图复制和粘贴在这里的角色的原因（这可能是有关该问题的有用的信息呢）。你也可以下载并安装Code200x fonts，其中包含相当多你通常可以期望遇到任何字符。（这是不能保证的，但很可能，在需要的时候Firefox将能够自动使用这些字体。）

2
投票

选择Acrobat中的文本。
右键单击，然后从上下文菜单中选择“复制与格式”。
等待进度条来处理文本。
贴字文件内。

1
投票

我们有类似的问题，试图从PDF文件到Excel中复制/粘贴cyrillics。

我们发现，最简单的解决方案是用浏览器（Chrome，Mozilla或歌剧）及复印件打开.PDF /粘贴在Word，Excel中的文本。

它不与IE浏览器，符合市场预期。

0
投票

我有同样的问题，但我通过网络浏览器（在我的情况铬）打开PDF文件解决它。复制和粘贴非ASCII编码的镀铬工作正常。

0
投票

您可以从Acrobat导出为JPEG格式，然后打开在Acrobat（不是阅读器）的JPEG然后运行OCR工具。从那里，你应该能够复制/粘贴。

问题描述投票：7回答：7

7个回答

最新问题

如何从非ASCII编码PDF剪切粘贴？

问题描述 投票：7回答：7

7个回答

最新问题

问题描述投票：7回答：7