ps2pdf,带有OCR松散OCR

问题描述 投票:0回答:1

[我花了很多时间将ps2pdf与OCR转换。

我在Windows10上安装了GhostScript,并将带有OCR的pdf转换为Post Script文件。然后,我将Post Script中的PDF转换为更好的结果。

发生的事情丢失了OCR。

如何使用OCR将OCRed pdf转换为Post Script文件然后再转换回Post Script文件为PDF?

我的命令是

pdf2ps test.pdf test.ps

然后

gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -o test2.pdf test.ps
ghostscript
1个回答
0
投票

您无法实现尝试使用Ghostscript或最有可能使用任何其他PostScript解释器的目标。

PostScript语言不支持PDF模型的某些功能,在这种情况下,它不支持文本呈现模式。 PDF文件几乎可以肯定使用文本渲染模式3在页面上放置“不可见”文本。 (注意,这有点猜测,因为您尚未提供要调查的PDF文件)

[ps2write设备发出的PostScript通过不绘制文本来模仿它。

[当您使用该PostScript并从中创建PDF文件时,不会绘制文本,因此不会将其合并到PDF文件中。结果是Tr 3和文本在新的PDF文件中不存在。

由于首先有了一个PDF文件,所以简单地不要从它创建一个PostScript程序,而您会得到想要的,其中包含不可见文本的PDF文件。

© www.soinside.com 2019 - 2024. All rights reserved.