在未选择副本的情况下对受保护的 pdf 建立索引

问题描述 投票:0回答:2

我进行了广泛的搜索。也许我不知道要寻找什么...

我需要能够索引和搜索“安全”PDF。这些 PDF 已选择“禁止复制”属性并被锁定。这意味着没有用户名和密码就无法复制 PDF 的内容。 IFilter 尊重这些设置,并且不允许对 PDF 建立索引。

我正在寻找一种使用 aspx.net 在我的服务器上索引和搜索这些 PDF 的方法。看来我陷入了以下困境之一:

  1. 我拥有打开这些 PDF 所需的凭据,以获得对内容的“复制”访问权限
  2. 当为我的工具提交 PDF 时,需要提交两项: 复制这个词 - 和 - PDF 副本
  3. 将完整内容复制到 PDF 的元数据中,或者至少复制一些关键字。 我没有研究过这里可能涉及什么样的风险。 这对作家来说意味着额外的一步

解决方案一和解决方案二意味着在服务器上或数据库中维护一个重复副本,并以编程方式引用实际的下载内容。有人为此提出解决方案吗?我更喜欢索引功能,因为这意味着不会重复内容。如果 PDF 元数据可以处理那么多内容并且安全性仍然完好无损,那么解决方案 3 很有吸引力。我还想知道如何通过 C# 或 VB 以编程方式访问 PDF,我可以使用凭据来获得访问权限...但看起来我可能会陷入困境。

这是我寻找另一种解决方案的最后努力。任何帮助将不胜感激。

c# vb.net pdf indexing ifilter
2个回答
0
投票

我最终采用了完全不同的解决方案。我喜欢利用 MS 索引的想法,但是使用 SQL 并让上传 PDF 的用户将关键字或 pdf 内容粘贴到文本框中变得更加容易。然后 SQL 可以索引该“列”,然后 bamm...搜索引擎会完成剩下的工作。

感谢大家花时间考虑这个问题。


0
投票

如果您有文件的用户名和密码,那么也许您可以打开文件并从中提取文本?

然后您将能够根据提取的数据构建索引。

Docotic.Pdf,我参与的库,可以为您打开受密码保护的文件。它也可以提取文本。文本可以提取为纯文本或格式化文本,并且可以按单词或字符分割。

请查看以下示例:

© www.soinside.com 2019 - 2024. All rights reserved.