Azure计算机视觉API - OCR到PDF文件上的文本

问题描述 投票:3回答:4

我正在尝试利用计算机视觉API对作为扫描文档的PDF文件进行OCR,但将其视为图像PDF。

我测试了它,它告诉我PDF是“InvalidImageFormat”,“输入数据不是有效的图像”。当我在PNG上测试时,它完美无缺。

无论如何都要对PDF图像使用API​​,或者是否有一个Azure API,我可以结合使用PDF> PNG> Text?

pdf ocr microsoft-cognitive
4个回答
3
投票

编辑

由于已经可以获得其他服务,虽然我没有亲自尝试其中一些,但它们可能适合这个目的。

https://docs.microsoft.com/en-us/azure/search/cognitive-search-concept-intro

并且在未来的某个时刻它会成为GA。 https://aws.amazon.com/textract/

原始答案

不幸的是,Azure的计算机视觉API没有PDF集成。要使用Azure计算机视觉,您需要自己将pdf更改为图像(JPG,PNG,BMP,GIF)。

Google现在提供pdf集成,到目前为止我从测试中看到了一些非常好的结果。

这是通过vision Client的asyncBatchAnnotateFiles方法完成的(我一直在使用API​​的NodeJS Variant)

它可以处理最多2000页的文件,结果分为20个页面段并输出到Google云端存储。

https://cloud.google.com/vision/docs/pdf


4
投票

Microsoft Azure最近提供的最新OCR服务称为Recognize Text,其性能明显优于之前的OCR engine。识别文本现在可以与Read一起使用,qazxswpoi可以读取PDF文档并将其数字化,最多可打印200页。


1
投票

对不起,您必须将PDF页面分成图像(JPG和PNG)。然后将图像发送到Computer Vision。分解它也是一个好主意,这样你就不必对所有页面进行OCR,只有那些具有重要性的页面。

© www.soinside.com 2019 - 2024. All rights reserved.