使用PDF阅读器获取文本？

问题描述投票：0回答：1

阅读pdf时如何只获得这种简单文本？

CLSAI10608

此代码始终以CLXXXXXXXX, LEN = 10开头。

代码：

import PyPDF2
file = open('document.pdf', 'rb')
pdfreader = PyPDF2.PdfFileReader(file)
pageobj = pdfreader.getPage(0)
print(pageobj.extractText())

输出：

python pdf pypdf2 pdf-reader

1个回答

0
投票

所以我想出的正则表达式模式是搜索以CL开头的内容，然后是8个非空白字符。 regex101.com提供了一个方便的说明。

import re

string = r"""Detalle

Total

4040CL02

  Correccion de BL

CLSAI10608LV-PASSERO V0008-MBL : ISGA0F000

47.020"""

match = re.search(r"[C][L]\S{8}", string)
if match:
    code = match.group()
    print(code)

输出：CLSAI10608

所以您想将string替换为pageobj.extractText()。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.