使用 PyPDF2 清理（或避免）额外的空白

问题描述投票：0回答：1

我一直在使用 PyPDF2 从 PDF 中提取文本。但是，它似乎在单词之间输入了错误的空格。有谁知道避免这种情况或事后清理它的方法吗？这是一个例子：

'关于 1113 York Avenue Realty 提交的申请公司, L.L.C.和 60th Street Development LLC 根据章节纽约市宪章第 197-c 和 201 条修正案分区地图，第 8c 和 8d 部分：'

这里“development”拼写为“development”，“the”拼写为“the”。我想更正这个。

这里是PDF。示例文本来自第一页的列表项编号 1。

python

nlp

nltk

pypdf

1个回答

0
投票

我们在 2022 年改进了文本提取。