使用 R 或 Python 读取复杂的财务表格

问题描述 投票:0回答:1

我有大约 100 份报告,如下所示,其中有一个表格,其中包含我需要提取的财务信息。这项工作太大,无法手动完成。

我需要提取“关键人物”的姓名和总薪酬,并将其保存在某种表格中。 我相信你们很多人都知道的挑战是用Python或R从PDF中提取数据非常困难。更困难的是,每家公司提供的表格与下面的表格略有不同。

我需要的是一些系统的方法来获取所需的信息。我并不是以任何方式寻求解决方案,因为我知道这是一项艰巨的任务,相反,我正在寻求如何实现我的目标的建议。 我已经使用了所有常规的 Python 和 R 包,到目前为止我还没有想出任何很好的系统方法来完成我的任务。也许机器学习方法是正确的选择?我不知道。但我尝试了很多方法来完成这个任务,但都没有成功。 任何意见,将不胜感激。 谢谢

python r machine-learning nlp finance
1个回答
0
投票

https://blog.djnavarro.net/posts/2023-06-16_tabulizer/

Danielle Navarro 有一篇不错的博客文章。为了繁荣(以防链接消失):使用

library(tabulizer)
。这取决于java,你需要
install.packages("rJava")
并找出未安装的任何原因(即,你没有 openjdk 或其他什么(这将取决于操作系统)),然后也许使用运气好的话,您可以使用
tabulizer::extract_tables(file = "your.pdf")
并获取您想要的桌子。

如果没有更多的reprex,它实际上不可能为您提供更多帮助 - 发布一个指向您想要从中提取表格的pdf的链接,也许我可以做更多。

© www.soinside.com 2019 - 2024. All rights reserved.