识别并提取 PDF 文档的特定部分

问题描述 投票:0回答:2

我有几份 PDF 格式的考试。我想以编程方式将每个问题提取为单独的图像/文档。 OCR 并不理想,因为它不能很好地维护代码/方程格式。最终目标是制作闪存卡,每张卡都包含整个问题的图像。问题可以在同一页上,也可以由多个部分组成(例如 1a、2f 等)。

目前,我正在考虑使用 OCR 来提取问题标签(例如 1、2、3 等),然后找到它们在 pdf 中的位置,并提取从一个问题的开头到下一个问题的开头的图像。是否有任何框架或软件可以做到这一点或提供某种替代方法来使这更容易?

python pdf ocr image-recognition pdf-parsing
2个回答
5
投票

看看 Allen AIScience-Parse。它在从 PDF 文档中提取元数据方面做得相当不错。通常,它比其他文本提取软件(例如 texttractpdfplumber)更好。

从PDF中准确提取数学公式多年来一直是一个研究课题。我还没有找到任何与精确提取数学公式相关的开源项目/包/软件,尽管有许多研究论文描述了这样做的方法,例如thisthis。 (更多的研究是关于数学公式的“识别”或将它们转换为适当的标记,例如 LaTeX、MathML 等)。这些论文中的大多数都使用有关字体、基线、字形边界框、行距等的信息。正确识别数学公式并提取它们。 对于 OCR,您始终可以使用 Infty。 InftyReader 的描述是这样说的:

InftyReader 可识别印刷科学文档的扫描图像 包括数学公式,输出各种识别结果 格式:InftyEditor 的 XML 格式、LaTeX、MathML、人类可读的 TeX 用于百叶窗等

查看
docsumo

0
投票
https://apidocs.docsumo.com/

,您可以将其与您的系统集成。

© www.soinside.com 2019 - 2024. All rights reserved.