从表格格式的 pdf 中提取数据到 excel/csv - Amazon textract

Question

今天，我正在尝试使用 Amazon Textract 将 pdf 文件中的表格提取到 excel 中！最初我认为这将非常简单，因为直到我使用 Java sdk 来处理它。但现在我卡住了。我不想使用 lambda，我不想使用 S3 存储桶来上传文件。

我需要和尝试过的：将整个表格从多个 pdf 文件中提取到 excel 中。

我不想将 pdf 读入文本文件，也不想编写逻辑来填充 excel，我可以用纯 c# 来完成。

这不是关于从键值对中的表中提取数据。这个我已经试过了：Key-Value Pair demo。有了这个，我能够以键值格式从图像和 pdf 中获取数据。但是但是但是，在阅读了大量文档之后我才知道，

AnalyzeDocumentRequest

仅适用于单页图像/pdf，而不适用于包含多页的 pdf。

StartDocumentTextDetection 我试过了，但我猜这又将 S3 存储桶作为必要参数，还有 SNS、SQS 等。如果我错了，请纠正我。

所以，我被困在哪里：

How to use the Amazon Textract with PDF files - again python and got know something new about boto which I not sure.哈哈！

如果有人能帮助我，那就太好了。提前致谢！