Azure计算机视觉API - OCR到PDF文件上的文本 - pdf - SO中文参考

我正在尝试利用计算机视觉API对作为扫描文档的PDF文件进行OCR，但将其视为图像PDF。

我测试了它，它告诉我PDF是“InvalidImageFormat”，“输入数据不是有效的图像”。当我在PNG上测试时，它完美无缺。

无论如何都要对PDF图像使用API，或者是否有一个Azure API，我可以结合使用PDF> PNG> Text？

3
投票

编辑

由于已经可以获得其他服务，虽然我没有亲自尝试其中一些，但它们可能适合这个目的。

并且在未来的某个时刻它会成为GA。 https://aws.amazon.com/textract/

原始答案

不幸的是，Azure的计算机视觉API没有PDF集成。要使用Azure计算机视觉，您需要自己将pdf更改为图像（JPG，PNG，BMP，GIF）。

Google现在提供pdf集成，到目前为止我从测试中看到了一些非常好的结果。

这是通过vision Client的asyncBatchAnnotateFiles方法完成的（我一直在使用API的NodeJS Variant）

它可以处理最多2000页的文件，结果分为20个页面段并输出到Google云端存储。

4
投票

Microsoft Azure最近提供的最新OCR服务称为Recognize Text，其性能明显优于之前的OCR engine。识别文本现在可以与Read一起使用，qazxswpoi可以读取PDF文档并将其数字化，最多可打印200页。

1
投票

对不起，您必须将PDF页面分成图像（JPG和PNG）。然后将图像发送到Computer Vision。分解它也是一个好主意，这样你就不必对所有页面进行OCR，只有那些具有重要性的页面。

Azure计算机视觉API - OCR到PDF文件上的文本