是否有可能获得浏览器pdf查看器的HTML？

Question

当您在浏览器中检查pdf查看器页面时，有一个html结构，但urllib2和请求都不返回任何内容，BS4进入infite循环。

我只想要页面的标题（在头部）。

Answer 1

如果您正在使用Mozilla的pdf.js，您应该可以这样做via the PDF.js API, as detailed in this Issue.

pdf.info.get('Title')

要么

new Metadata(pdf.catalog.metadata)
metadata.get('dc:title')