从 PDF 中提取时从文本中排除页码

问题描述 投票:0回答:1

我想使用

pypdf
包从实际文本中排除 PDF 的页码

from pypdf import PdfReader

reader = PdfReader("pdf-examples/kurdish-sample-2.pdf")
full_text = ""
for page in reader.pages:
    full_text += page.extract_text() + "\n"
print(full_text)

输出:

5 دوارۆژی ئەم منداڵه بکەنەوە کە چۆن و چی بەسەر دێت و دووچاری 

数字5是应排除的页码。

python pdf pypdf text-extraction
1个回答
0
投票

如果迭代次数为5,可以使用

pass
方法,就像这样:

from pypdf import PdfReader

reader = PdfReader("pdf-examples/kurdish-sample-2.pdf")
full_text = ""

def extract_pages(reader, text):
    i=1
    for page in reader.pages:
        if i == 5:
            pass
        else:
            text += page.extract_text() + "\n"
        i = i + 1
    return text
full_text = extract_pages(reader, full_text)

这里我们使用

i
作为迭代计数器,并在每次读取页面时添加它,我们将计数器加一。因此,如果
i
是 5,则意味着我们位于第五页,并且我们只是不通过编写
pass
对其进行任何操作。

© www.soinside.com 2019 - 2024. All rights reserved.