今天,我正在尝试使用 Amazon Textract 将 pdf 文件中的表格提取到 excel 中!最初我认为这将非常简单,因为直到我使用 Java sdk 来处理它。但现在我卡住了。我不想使用 lambda,我不想使用 S3 存储桶来上传文件。
我需要和尝试过的:将整个表格从多个 pdf 文件中提取到 excel 中。
我不想将 pdf 读入文本文件,也不想编写逻辑来填充 excel,我可以用纯 c# 来完成。
这不是关于从键值对中的表中提取数据。这个我已经试过了:Key-Value Pair demo。有了这个,我能够以键值格式从图像和 pdf 中获取数据。但是但是但是,在阅读了大量文档之后我才知道,
AnalyzeDocumentRequest
仅适用于单页图像/pdf,而不适用于包含多页的 pdf。
StartDocumentTextDetection 我试过了,但我猜这又将 S3 存储桶作为必要参数,还有 SNS、SQS 等。如果我错了,请纠正我。
所以,我被困在哪里:
使用 Amazon textract 将所有表格数据从 PDF 导出到 Excel
不使用 Amazon S3 的 Amazon Textract
How to use the Amazon Textract with PDF files - again python and got know something new about boto which I not sure.哈哈!
如果有人能帮助我,那就太好了。提前致谢!