是否有 Azure Document AI 的开源替代方案,我们可以像在 Azure 中一样训练自定义提取模型?目前,我正在使用 Azure,但在自定义提取模型中,OCR 误读了一些字符,所以我想知道是否有任何开源替代方案,以便我可以更准确地训练模型
有多种选择,让你为你放几个github repos
Tesseract是Google开发的开源OCR引擎 https://github.com/tesseract-ocr/tesseract
OCropus 是一个 OCR(光学字符识别)系统
https://github.com/ocropus-archive/DUP-ocropy
Kraken 是一个用于文档分析和文本提取的 OCR 引擎