如何将不可见的文本插入PDF?

问题描述 投票:3回答:3

我想在现有的PDF文件中插入不可见的文本,以使其可搜索。

哪个图书馆我应该使用?我希望使用指向特定API方法的链接。

免费,最好是开源。非常感谢!

(出于好奇:我想自动对传入的扫描纸进行OCR识别,并使其在Alfresco资料库中可搜索)

pdf itext pdfbox
3个回答
4
投票

3个选项。我的答案是特定于itext的,但是您应该能够将基本方法转换为足够高级的PDF库。

  1. 文本渲染模式3:“无笔触,无填充”。使用iText:myPdfContentByte.setTextRenderMode(PdfContentByte.TEXT_RENDER_MODE_INVISIBLE);
  2. 将文字画在某物后面。您大概正在使用扫描的页面图像。 iText myPdfStamper.getUnderContent(pageNum)使此操作变得容易,并允许您在扫描下绘制文本。其他使您可以访问页面内容的库可能需要您在现有内容流的开头“原始”添加文本。您将需要查看“ PDF规范”(使用Google可以)以获取详细信息。第9章全部涉及文本呈现。
  3. 在页面的媒体或裁切框外绘制文本。如果您只想使用支持PDF的随机搜索引擎打开您的页面,则可以使用,但是如果您希望查看PDF的人看到适当的文本选择框,则没有什么用。

1
投票

[This显示如何创建包含文本的PDF文档,this显示如何添加图像。首先添加文本,然后在其顶部添加图像-最终用户将看不见该文本,但仍可被搜索引擎搜索。 This也可能有用。


0
投票

您不必使文本不可见。只需在适当的位置渲染它们,然后将扫描的图像覆盖在文本上即可。或者,您可以在图像上渲染文本,并将笔触和画笔的颜色的Alpha值设置为零。

© www.soinside.com 2019 - 2024. All rights reserved.