在 PDF 文档的元数据中搜索

问题描述 投票:0回答:1

我一直在使用 Google 自定义搜索 API 来执行以下任务:

  • 使用“filetype:pdf”搜索某些关键字

这按预期工作正常,但它只允许在 PDF 文档的内容中进行搜索。但是,我试图在 PDF 文档的元数据中或在 PDF 文档的内容流中进行搜索。 我搜索了很多,我认为谷歌没有办法做到这一点。我想知道是否还有其他搜索引擎您认为我可以实现我想要的?

谢谢你

search-engine google-custom-search yahoo-api bing-api search-engine-api
1个回答
0
投票

我在 github 上找到了这个,但仓库已存档。 它使用不同的组合和方式, 脚本没有更新,但我想如果你使用:

selenium
PyPDF2
PyMuPDF
json

和其他

regex
技术通过修改此脚本,

你可以到达那里。

https://github.com/TebbaaX/Katana

并与

selenium
PyPDF2
PyMuPDF
bsf4
:

https://pypi.org/project/PyMuPDF/

https://pypi.org/project/PyPDF2/

https://pypi.org/project/BeautifulSoup/

我不知道这是否可以帮助您,但从逻辑上讲,您必须抓取文件并对它们运行分析以提取元数据?

© www.soinside.com 2019 - 2024. All rights reserved.