DOCUMENT_TEXT_DETECTION API:日语字符识别不正确

问题描述 投票:0回答:1

我们正在使用 Vision API 的 OCR 服务 (DOCUMENT_TEXT_DETECTION)。但是,自 2024 年 3 月 8 日上午 9:00(日本标准时间)左右开始,我们注意到一些日语 (JA) 文本被识别为旧日语字符。

例如,字符“内”(nai) 被识别为旧形式“内”(nai)。并非所有旧字符都会发生这种情况,有时会返回标准日语字符。

这个问题过去没有发生过。此外,对于 2024 年 3 月 8 日之后使用旧字符识别的文档,后续识别也将返回新旧字符混合的结果。

我们已经检查了响应区域设置。最初,我们认为此问题仅影响“und”区域设置,但我们已确认“ja”区域设置也会出现此问题。

最近内部算法有变化吗?

如果这个问题有任何解决方案,请告诉我们。

预先感谢您的帮助。

附加信息:

可复制的身体:

{
  "requests": [
    {
      "image": {
        "source": {
          "imageUri": "CLOUD_STORAGE_IMAGE_URI"
        }
       },
       "features": [
         {
           "type": "DOCUMENT_TEXT_DETECTION"
         }
       ]
    }
  ]
}

预期输出:

内閣府

实际产量:

內閣府
google-cloud-vision
1个回答
0
投票

请参阅此页。
https://cloud.google.com/vision/docs/release-notes?hl=ja

12 月 5 日的更新已于 3 月 8 日左右反映在稳定版中。
在我们的项目中,日语也被误识别为中文。

© www.soinside.com 2019 - 2024. All rights reserved.