我有大约 100 份报告,如下所示,其中有一个表格,其中包含我需要提取的财务信息。这项工作太大,无法手动完成。
我需要提取“关键人物”的姓名和总薪酬,并将其保存在某种表格中。 我相信你们很多人都知道的挑战是用Python或R从PDF中提取数据非常困难。更困难的是,每家公司提供的表格与下面的表格略有不同。
我需要的是一些系统的方法来获取所需的信息。我并不是以任何方式寻求解决方案,因为我知道这是一项艰巨的任务,相反,我正在寻求如何实现我的目标的建议。 我已经使用了所有常规的 Python 和 R 包,到目前为止我还没有想出任何很好的系统方法来完成我的任务。也许机器学习方法是正确的选择?我不知道。但我尝试了很多方法来完成这个任务,但都没有成功。 任何意见,将不胜感激。 谢谢
https://blog.djnavarro.net/posts/2023-06-16_tabulizer/
Danielle Navarro 有一篇不错的博客文章。为了繁荣(以防链接消失):使用
library(tabulizer)
。这取决于java,你需要 install.packages("rJava")
并找出未安装的任何原因(即,你没有 openjdk 或其他什么(这将取决于操作系统)),然后也许使用运气好的话,您可以使用 tabulizer::extract_tables(file = "your.pdf")
并获取您想要的桌子。
如果没有更多的reprex,它实际上不可能为您提供更多帮助 - 发布一个指向您想要从中提取表格的pdf的链接,也许我可以做更多。