从PDF文档中提取页面标题

问题描述 投票:0回答:1

我正处于编码冒险的开始阶段。 我需要从大 PDF 文档(350 页)中提取页面/选项卡名称。附图片。 我尝试使用 pdfminer,因为理论上这些名称也包含在 PDF 页面上,但要获取它们,我需要设置一些规则。从选项卡中获取这些名称会更容易。是否可以?有什么建议我应该使用什么吗?

python pdf text
1个回答
0
投票

您可以使用PyMuPDF。像这样,

import fitz  # PyMuPDF library

ref_pdf = fitz.open(r"C:\any.pdf")
page_count = ref_pdf.page_count

for i in range(page_count):
    page = ref_pdf[i]
    page_text = page.get_text()
    print(page_text)

页面文本将包含每个页面的所有文本,包括页面/选项卡名称。

参考:https://pypi.org/project/PyMuPDF/

© www.soinside.com 2019 - 2024. All rights reserved.