使用 R 或 Python 读取复杂的财务表格

Question

我有大约 100 份报告，如下所示，其中有一个表格，其中包含我需要提取的财务信息。这项工作太大，无法手动完成。

我需要提取“关键人物”的姓名和总薪酬，并将其保存在某种表格中。我相信你们很多人都知道的挑战是用Python或R从PDF中提取数据非常困难。更困难的是，每家公司提供的表格与下面的表格略有不同。

我需要的是一些系统的方法来获取所需的信息。我并不是以任何方式寻求解决方案，因为我知道这是一项艰巨的任务，相反，我正在寻求如何实现我的目标的建议。我已经使用了所有常规的 Python 和 R 包，到目前为止我还没有想出任何很好的系统方法来完成我的任务。也许机器学习方法是正确的选择？我不知道。但我尝试了很多方法来完成这个任务，但都没有成功。任何意见，将不胜感激。谢谢

Answer 1

https://blog.djnavarro.net/posts/2023-06-16_tabulizer/

Danielle Navarro 有一篇不错的博客文章。为了繁荣（以防链接消失）：使用

library(tabulizer)

。这取决于java，你需要

install.packages("rJava")

并找出未安装的任何原因（即，你没有 openjdk 或其他什么（这将取决于操作系统）），然后也许使用运气好的话，您可以使用

tabulizer::extract_tables(file = "your.pdf")

并获取您想要的桌子。

如果没有更多的reprex，它实际上不可能为您提供更多帮助 - 发布一个指向您想要从中提取表格的pdf的链接，也许我可以做更多。

使用 R 或 Python 读取复杂的财务表格

问题描述投票：0回答：1

1个回答

最新问题

使用 R 或 Python 读取复杂的财务表格

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1