是否有可能获得浏览器pdf查看器的HTML?

问题描述 投票:0回答:1

当您在浏览器中检查pdf查看器页面时,有一个html结构,但urllib2和请求都不返回任何内容,BS4进入infite循环。

我只想要页面的标题(在头部)。

示例页面:http://victoria.lviv.ua/html/fl5/NaturalLanguageProcessingWithPython.pdf

html pdf web-scraping
1个回答
1
投票

如果您正在使用Mozilla的pdf.js,您应该可以这样做via the PDF.js API, as detailed in this Issue.

pdf.info.get('Title')

要么

new Metadata(pdf.catalog.metadata)
metadata.get('dc:title')
© www.soinside.com 2019 - 2024. All rights reserved.