我用 python 和 fitz 从 PDF 中获取姓名信息。
问题是,大多数信息都有空格来匹配背景,例如:名字=“P I E R R E”和姓氏“L E D U C D E C O L”。
我需要删除不与其他空格相邻的字符之间的空格。
当然,一开始我用“s/\s//g”删除了所有空格,但对于名称,它给了我“LEDUCDECOL”,我需要“LE DUC DE COL”。
firstname = "P I E R R E"
lastname = "L E D U C D E C O L"
for i in [firstname, lastname]:
i = re.sub(r'\s',"", i ).title()
if i.startswith(("Le","La")):
i = i[:2] + " " + i[2:].title()
print(i)
Pierre
Le Ducdecol