我试图通过使用魔方从图像中提取文本,但它不能检测阿拉伯数字。ara_number 只适用于数字,但我不能把它与魔方结合起来。
例如:
结果与Tesseract :
其他:
我试着将lang设置为(lang = 'ara+ara_number'),但没有成功。
如果有任何方法可以将2个文件合并或微调魔方文件。
具体字符的微调可以参考这个。
https:/tesseract-ocr.github.iotessdocTrainingTesseract-4.00.html#fine-tuning--a-few-characters。
如果你在这些图像中使用了特定的字体,你应该在训练时将其包含在内。https:/tesseract-ocr.github.iotessdocTrainingTesseract-4.00.html#fine-tuning-for-impact。
https:/www.youtube.comwatch?v=TpD76k2HYms