ghostscript只删除pdf中的彩色文本。

问题描述 投票:1回答:1

我在阅读PDF文件的过程中,我想删除任何彩色的文字(即只留下黑色的文字和图像)。我想删除任何彩色文本(即只留下黑色文本和图像),我试过ghostscript。

gs -o no-more-texts.pdf -sDEVICE=pdfwrite -dFILTERTEXT   Original.pdf

如何修改gs命令,使其只删除彩色文字(红、蓝...)。

如果有其他模块可以做到这一点,我愿意接受建议。

python pdf ghostscript
1个回答
0
投票

这样做的设备没有这个功能,所以你不能修改Ghostscript命令行来做你想要的事情。

在Ghostscript中,有三种方法可以解决这个问题。

  • 你可以修改用PostScript编写的PDF解释器。
  • 你可以修改用C语言编写的pdfwrite设备。
  • 你可以修改过滤装置,这也是用C语言写的。

无论你使用哪种工具,都需要考虑一些要点。首先是什么 恰恰 你是指 "彩色文本 "还是 "黑色文本和图像"?

PDF规范允许在各种不同的颜色空间中指定颜色。灰色、RGB、CMYK、Lab、CalGray、CalRGB、ICCBased、Separation、DeviceN此外,还有索引色彩空间,它可能有前面任何空间的基础空间,以及图案色彩空间。

在这些空间中,你要考虑什么是 "黑色"?显然DeviceGray很简单,0就是黑色,其他的都是灰色,但是RGB呢?你是否只打算把0,0,0当作黑色?如果它是一个基于ICC的空间呢?

文本可以有 两种 颜色、笔触和填充颜色,它们可以以不同的方式指定。它们甚至可以在不同的颜色空间中指定。你需要考虑如何处理这些问题。

© www.soinside.com 2019 - 2024. All rights reserved.