如何从pdf中提取元素

我有一个项目，要求我使用 python 从一堆 pdf 文件中提取内容，包括文本、图像和表格，按照它们在原始文件中出现的顺序，我的问题是我需要识别这些元素即分别提取每个元素（标题、作者、机构、关键字...）

例如

挑战在于每个 pdf 的内容略有不同

例如，我们在此驱动器

中有这三个文件

注意：文件可以写入一列或两列

python pdf extract ocr

0
投票

aws 提供了很棒的服务 aws texttract。这将帮助您提取内容。

请参考以下链接。