如何将从PDF中提取的文本格式化为python中的json

问题描述 投票:1回答:1

我使用pyPDF2以文本格式提取了一些发票PDF。我想将此文本文件转换为仅包含重要关键字和标记的json文件。

输出应该是这样的:

#PurchaseOrder

{

"doctype":"PO",

"orderingcompany":"Demo Company",

"suppliercompany":"Demo Company",

"shipto":"Test Customer",

"ponum":"PO1234",

"podate":"01-01-2019",

"totalamount":"$1234.50",

"currency":"SGD"

}

我从pdf获得的示例文本是:

PACE MEMBERSHIP WAREHOUSE

4115 Whispering Pines Circle

Grand Prairie,TX 75051

972

336

7141

56929268

采购订单

至:

我啊啊。华

A +投资

1223 Cerullo Road

列克星敦,肯塔基州40507

[电话号码]

运送到:

劳雷尔·严

步伐会员仓库

4115 Whispering Pines Circle

Grand Prairie,TX 75051

972

336

7141

邮政信箱数:

PO / 18

19081

[P.O.号码必须出现在所有相关信件,运输单据和发票上]

P.O DATE

申购

威盛航运

制品离岸点

条款

7/15/2006

QTY

单元

描述

单价

总计(新元)

100.00

1

Interlock Drifit Round Neck,ILRN

13.50

1,350.00

小计

1,350.00

销售税

200.00

1.

请发送两份发票。

2.

根据上面列出的价格,条款,交货方式和规格输入此订单。

3.

如果您无法按规定发货,请立即通知我们。

4.

将所有信件发送至:

劳雷尔·严

4115 Whispering Pines Circle

Grand Prairie,TX 75051

972

336

7141

56929268

运费和手续费

其他

1,550.00

由Laurel Yan授权

7/15/2006

python json pypdf2
1个回答
0
投票

您提供了文本,可能有一个好主意来编辑您的帖子以删除地址

要回答你的问题,你必须逐行循环遍历这个文本并记录你需要的部分并将它们保存到json。

如果您只想按位置获取页面的子集,那么在How to extract text from a Specific Area in a PDF using Python?之前已经询问过这个问题

© www.soinside.com 2019 - 2024. All rights reserved.