我使用pyPDF2以文本格式提取了一些发票PDF。我想将此文本文件转换为仅包含重要关键字和标记的json文件。
输出应该是这样的:
#PurchaseOrder
{
"doctype":"PO",
"orderingcompany":"Demo Company",
"suppliercompany":"Demo Company",
"shipto":"Test Customer",
"ponum":"PO1234",
"podate":"01-01-2019",
"totalamount":"$1234.50",
"currency":"SGD"
}
我从pdf获得的示例文本是:
PACE MEMBERSHIP WAREHOUSE
4115 Whispering Pines Circle
Grand Prairie,TX 75051
7141
56929268
采购订单
至:
我啊啊。华
A +投资
1223 Cerullo Road
列克星敦,肯塔基州40507
[电话号码]
运送到:
劳雷尔·严
步伐会员仓库
4115 Whispering Pines Circle
Grand Prairie,TX 75051
7141
邮政信箱数:
19081
[P.O.号码必须出现在所有相关信件,运输单据和发票上]
P.O DATE
申购
威盛航运
制品离岸点
条款
7/15/2006
QTY
单元
描述
单价
总计(新元)
100.00
1
Interlock Drifit Round Neck,ILRN
13.50
1,350.00
小计
1,350.00
销售税
200.00
1.
请发送两份发票。
2.
根据上面列出的价格,条款,交货方式和规格输入此订单。
3.
如果您无法按规定发货,请立即通知我们。
4.
将所有信件发送至:
劳雷尔·严
4115 Whispering Pines Circle
Grand Prairie,TX 75051
7141
56929268
运费和手续费
其他
总
1,550.00
由Laurel Yan授权
7/15/2006
您提供了文本,可能有一个好主意来编辑您的帖子以删除地址
要回答你的问题,你必须逐行循环遍历这个文本并记录你需要的部分并将它们保存到json。
如果您只想按位置获取页面的子集,那么在How to extract text from a Specific Area in a PDF using Python?之前已经询问过这个问题