我如何清除pdf提取的代码,以便以后使用]]

问题描述 投票:0回答:1

我正在尝试从发票(pdf)中提取数据,将数据写入CSV并将所需的信息提取到GUI中(例如,该周售出了多少产品)

我不能使用pypdf,因为Windows中的“打印到pdf”显然存储了它作为某种图片或其他东西生成的pfds ...供参考:Pypdf extracts code from one PDF, but not from another?

我的问题:

我正在使用此代码提取数据(此站点上的一个好人已经帮助了我)

from tika import parser
raw = parser.from_file('2.pdf')
print(raw['content'])

那给了我:

产品目录Schickmaier Excel.xlsx

LIEFERSCHEIN

坤德客户地址

地址数据数据

K / DB-Nr。 211联系人

Preis / N M Gesamtpreis

[Bio Erdbeer-Chilischokolade 3,05€20 61,09€Bio Beuscherl 5,23€631,36€Bio ChiliconCarne 5,98€15 89,77€Bio Geschnetzeltes 5,23€15 78,41€

[Versand Brutto Versand Netto-€

Warenwert netto 10%260,64€Umsatzsteuer 10%26,06€

[RECHNUNGSBETRAG BRUTTO 286,70€Seite 1/1

2019 /

数据

我现在尝试过多次以使用该数据,以将其清理到缓冲区中或将其写入txt或csv然后清理,但是没有任何效果,如果我至少可以写出来,它将已经很有帮助。到txt,然后从那里去,这一点都不好,但是我是新手,而且可能性有限:/最好是将其以清理后的格式写入csv,添加所有其他发票,然后使用数据-我打算这样做,但是编程很难xD我已经去过GUI了,但是这个数据问题很疼

[此外,我花了数小时观看vid并试图找到解决方案,但是我无法运行任何东西,即使我需要的东西也差不多。我保证,在搜索自己之前,我不会浪费你的时间

[完美的是,如果我每张发票都获得一行CSV,并且将单词放入不同的单元格中,以便我可以使用它们将它们加起来,并确实使我们的新小公司的发展更加明显,同时教会我自己如何编程非常感谢!

我正在尝试从发票(pdf)中提取数据,将数据写入CSV并将所需的信息提取到GUI中(例如,该周售出了多少产品),我无法使用pypdf ...] >

python apache-tika
1个回答
0
投票

[如果您只是想将每个单词放入不同的单元格,请运行查找并替换文本字符串。您需要用逗号替换每个中断或空格。在“查找/替换”中添加一个例外以转义现有的逗号(将其用双引号引起来,即23,456->“ 23,456”)。将空格和换行符替换为逗号后,您可以将字符串另存为.csv。如果您只想提取某些值,我认为熟悉Regular Expressions会有所帮助。

Here's some information to get line breaks in .csv files

© www.soinside.com 2019 - 2024. All rights reserved.