如何使用Python从PDF文件中提取图表/表格/图表？

问题描述投票：1回答：1

搜索了不少但由于我找不到解决这类问题的方法，因此发布了一个明确的问题。大多数答案涵盖了相对容易的图像/文本提取。

我需要分别从PDF中提取表格和图形作为文本（csv）和图像。

谁能帮助我使用高效的python 3.6代码来解决同样的问题？

直到现在我可以使用startmark = b“\ xff \ xd8”和endmark = b“\ xff \ xd9”来提取jpgs，但并非PDF中的所有表格和图形都是普通的jpgs，因此我的代码在实现这一点时失败了。

例如，我想从第11页提取表格，从第12页提取图表作为图像或从下面给出的链接可行的东西。怎么去呢？

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

python pdf python-3.6 ocr extract

1个回答

0
投票

要提取表格，您可以使用camelot

这是关于它的article。

对于图像我发现了这个问题并回答Extract images from PDF without resampling, in python?

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.