我正在使用 AWS Textract 从上传到 S3 的表单中获取数据。我无法找到任何方法来对日语文档执行此操作。
翻阅AWS文档发现没有官方支持。
有什么解决办法吗?
目前,根据 docs,Amazon Textract 支持英语、西班牙语、德语、意大利语、法语和葡萄牙语。
它不支持日语,并且没有本地解决方法。
您需要使用另一个支持日语的 OCR 服务,可以自行部署或通过 AWS Marketplace 进行部署。一些选项是 Tesseract 或 NHocr。
或者,使用 Google Cloud Vision OCR 可能是最佳选择,因为日语被列为受支持的语言,即“优先并定期评估”。