如何使用Python从PDF文件中提取图表/表格/图表?

问题描述 投票:1回答:1

搜索了不少但由于我找不到解决这类问题的方法,因此发布了一个明确的问题。大多数答案涵盖了相对容易的图像/文本提取。

我需要分别从PDF中提取表格和图形作为文本(csv)和图像。

谁能帮助我使用高效的python 3.6代码来解决同样的问题?

直到现在我可以使用startmark = b“\ xff \ xd8”和endmark = b“\ xff \ xd9”来提取jpgs,但并非PDF中的所有表格和图形都是普通的jpgs,因此我的代码在实现这一点时失败了。

例如,我想从第11页提取表格,从第12页提取图表作为图像或从下面给出的链接可行的东西。怎么去呢?

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

python pdf python-3.6 ocr extract
1个回答
0
投票

要提取表格,您可以使用camelot

这是关于它的article

对于图像我发现了这个问题并回答Extract images from PDF without resampling, in python?

© www.soinside.com 2019 - 2024. All rights reserved.