如何从pdf中提取元素

问题描述 投票:0回答:1

我有一个项目,要求我使用 python 从一堆 pdf 文件中提取内容,包括文本、图像和表格,按照它们在原始文件中出现的顺序,我的问题是我需要识别这些元素即分别提取每个元素(标题、作者、机构、关键字...)

例如

挑战在于每个 pdf 的内容略有不同

例如,我们在 此驱动器

中有这三个文件

注意:文件可以写入一列或两列

python pdf extract ocr
1个回答
0
投票

aws 提供了很棒的服务 aws texttract。这将帮助您提取内容。

请参考以下链接。

https://docs.aws.amazon.com/code-library/latest/ug/python_3_texttract_code_examples.html

© www.soinside.com 2019 - 2024. All rights reserved.