我想使用
pypdf
包从实际文本中排除 PDF 的页码
from pypdf import PdfReader
reader = PdfReader("pdf-examples/kurdish-sample-2.pdf")
full_text = ""
for page in reader.pages:
full_text += page.extract_text() + "\n"
print(full_text)
输出:
5 دوارۆژی ئەم منداڵه بکەنەوە کە چۆن و چی بەسەر دێت و دووچاری
数字5是应排除的页码。
如果迭代次数为5,可以使用
pass
方法,就像这样:
from pypdf import PdfReader
reader = PdfReader("pdf-examples/kurdish-sample-2.pdf")
full_text = ""
def extract_pages(reader, text):
i=1
for page in reader.pages:
if i == 5:
pass
else:
text += page.extract_text() + "\n"
i = i + 1
return text
full_text = extract_pages(reader, full_text)
这里我们使用
i
作为迭代计数器,并在每次读取页面时添加它,我们将计数器加一。因此,如果 i
是 5,则意味着我们位于第五页,并且我们只是不通过编写 pass
对其进行任何操作。