从 PDF 中提取时从文本中排除页码

Question

我想使用

pypdf

包从实际文本中排除 PDF 的页码

from pypdf import PdfReader

reader = PdfReader("pdf-examples/kurdish-sample-2.pdf")
full_text = ""
for page in reader.pages:
    full_text += page.extract_text() + "\n"
print(full_text)

输出：

5 دوارۆژی ئەم منداڵه بکەنەوە کە چۆن و چی بەسەر دێت و دووچاری

数字5是应排除的页码。

Answer 1

如果迭代次数为5，可以使用

pass

方法，就像这样：

from pypdf import PdfReader

reader = PdfReader("pdf-examples/kurdish-sample-2.pdf")
full_text = ""

def extract_pages(reader, text):
    i=1
    for page in reader.pages:
        if i == 5:
            pass
        else:
            text += page.extract_text() + "\n"
        i = i + 1
    return text
full_text = extract_pages(reader, full_text)

这里我们使用

作为迭代计数器，并在每次读取页面时添加它，我们将计数器加一。因此，如果

是 5，则意味着我们位于第五页，并且我们只是不通过编写

pass

对其进行任何操作。

从 PDF 中提取时从文本中排除页码

问题描述投票：0回答：1

1个回答

最新问题

从 PDF 中提取时从文本中排除页码

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1