我正在尝试利用计算机视觉API对作为扫描文档的PDF文件进行OCR,但将其视为图像PDF。
我测试了它,它告诉我PDF是“InvalidImageFormat”,“输入数据不是有效的图像”。当我在PNG上测试时,它完美无缺。
无论如何都要对PDF图像使用API,或者是否有一个Azure API,我可以结合使用PDF> PNG> Text?
编辑
由于已经可以获得其他服务,虽然我没有亲自尝试其中一些,但它们可能适合这个目的。
https://docs.microsoft.com/en-us/azure/search/cognitive-search-concept-intro
并且在未来的某个时刻它会成为GA。 https://aws.amazon.com/textract/
原始答案
不幸的是,Azure的计算机视觉API没有PDF集成。要使用Azure计算机视觉,您需要自己将pdf更改为图像(JPG,PNG,BMP,GIF)。
Google现在提供pdf集成,到目前为止我从测试中看到了一些非常好的结果。
这是通过vision Client的asyncBatchAnnotateFiles方法完成的(我一直在使用API的NodeJS Variant)
它可以处理最多2000页的文件,结果分为20个页面段并输出到Google云端存储。
Microsoft Azure最近提供的最新OCR服务称为Recognize Text,其性能明显优于之前的OCR engine。识别文本现在可以与Read一起使用,qazxswpoi可以读取PDF文档并将其数字化,最多可打印200页。
对不起,您必须将PDF页面分成图像(JPG和PNG)。然后将图像发送到Computer Vision。分解它也是一个好主意,这样你就不必对所有页面进行OCR,只有那些具有重要性的页面。