使用 PyPDF2 清理(或避免)额外的空白

问题描述 投票:0回答:1

我一直在使用 PyPDF2 从 PDF 中提取文本。但是,它似乎在单词之间输入了错误的空格。有谁知道避免这种情况或事后清理它的方法吗?这是一个例子:

'关于 1113 York Avenue Realty 提交的申请 公司, L.L.C.和 60th Street Development LLC 根据章节 纽约市宪章第 197-c 和 201 条修正案 分区地图,第 8c 和 8d 部分:'

这里“development”拼写为“development”,“the”拼写为“the”。我想更正这个。

这里是PDF。示例文本来自第一页的列表项编号 1。

python nlp nltk pypdf
1个回答
0
投票

您需要从 PyPDF2 迁移到 pypdf:https://pypdf.readthedocs.io/en/latest/user/migration-1-to-2.html

我们在 2022 年改进了文本提取。

© www.soinside.com 2019 - 2024. All rights reserved.