如何将从PDF中提取的文本格式化为python中的json

Question

我使用pyPDF2以文本格式提取了一些发票PDF。我想将此文本文件转换为仅包含重要关键字和标记的json文件。

输出应该是这样的：

#PurchaseOrder

{

"doctype":"PO",

"orderingcompany":"Demo Company",

"suppliercompany":"Demo Company",

"shipto":"Test Customer",

"ponum":"PO1234",

"podate":"01-01-2019",

"totalamount":"$1234.50",

"currency":"SGD"

}

我从pdf获得的示例文本是：

PACE MEMBERSHIP WAREHOUSE

4115 Whispering Pines Circle

Grand Prairie，TX 75051

972

336

7141

56929268

采购订单

至：

我啊啊。华

A +投资

1223 Cerullo Road

列克星敦，肯塔基州40507

[电话号码]

运送到：

劳雷尔·严

步伐会员仓库

4115 Whispering Pines Circle

Grand Prairie，TX 75051

972

336

7141

邮政信箱数：

PO / 18

19081

[P.O.号码必须出现在所有相关信件，运输单据和发票上]

P.O DATE

申购

威盛航运

制品离岸点

条款

7/15/2006

QTY

单元

描述

单价

总计（新元）

100.00

1

Interlock Drifit Round Neck，ILRN

13.50

1,350.00

小计

1,350.00

销售税

200.00

1.

请发送两份发票。

2.

根据上面列出的价格，条款，交货方式和规格输入此订单。

3.

如果您无法按规定发货，请立即通知我们。

4.

将所有信件发送至：

劳雷尔·严

4115 Whispering Pines Circle

Grand Prairie，TX 75051

972

336

7141

56929268

运费和手续费

其他

总

1,550.00

由Laurel Yan授权

7/15/2006

Answer 1

您提供了文本，可能有一个好主意来编辑您的帖子以删除地址

要回答你的问题，你必须逐行循环遍历这个文本并记录你需要的部分并将它们保存到json。

如果您只想按位置获取页面的子集，那么在How to extract text from a Specific Area in a PDF using Python?之前已经询问过这个问题

如何将从PDF中提取的文本格式化为python中的json

问题描述投票：1回答：1

972

336

972

336

PO / 18

972

336

1个回答

最新问题

如何将从PDF中提取的文本格式化为python中的json

问题描述 投票：1回答：1

972

336

972

336

PO / 18

972

336

1个回答

最新问题

问题描述投票：1回答：1