我有一个项目,要求我使用 python 从一堆 pdf 文件中提取内容,包括文本、图像和表格,按照它们在原始文件中出现的顺序,我的问题是我需要识别这些元素即分别提取每个元素(标题、作者、机构、关键字...)
挑战在于每个 pdf 的内容略有不同
例如,我们在 此驱动器
中有这三个文件注意:文件可以写入一列或两列
aws 提供了很棒的服务 aws texttract。这将帮助您提取内容。
请参考以下链接。
https://docs.aws.amazon.com/code-library/latest/ug/python_3_texttract_code_examples.html