从表格格式的 pdf 中提取数据到 excel/csv - Amazon textract

问题描述 投票:0回答:0

今天,我正在尝试使用 Amazon Textract 将 pdf 文件中的表格提取到 excel 中!最初我认为这将非常简单,因为直到我使用 Java sdk 来处理它。但现在我卡住了。我不想使用 lambda,我不想使用 S3 存储桶来上传文件。

我需要和尝试过的:将整个表格从多个 pdf 文件中提取到 excel 中。

我不想将 pdf 读入文本文件,也不想编写逻辑来填充 excel,我可以用纯 c# 来完成。

这不是关于从键值对中的表中提取数据。这个我已经试过了:Key-Value Pair demo。有了这个,我能够以键值格式从图像和 pdf 中获取数据。但是但是但是,在阅读了大量文档之后我才知道,

AnalyzeDocumentRequest
仅适用于单页图像/pdf,而不适用于包含多页的 pdf。

StartDocumentTextDetection 我试过了,但我猜这又将 S3 存储桶作为必要参数,还有 SNS、SQS 等。如果我错了,请纠正我。

所以,我被困在哪里

  • 我在谷歌上有很多 Python 和 Java 的解决方案,比如:

使用 Amazon textract 将所有表格数据从 PDF 导出到 Excel

不使用 Amazon S3 的 Amazon Textract

How to use the Amazon Textract with PDF files - again python and got know something new about boto which I not sure.哈哈!

  • 我想在 C#.Net 中实现它。我没有得到这方面的适当文件。
  • 很明显,我已经经历了this但这不是我想要的。
  • 不一定,但即使解决方案不使用 S3 存储桶也会更好。

如果有人能帮助我,那就太好了。提前致谢!

python java c# amazon-textract pdf-parsing
© www.soinside.com 2019 - 2024. All rights reserved.