DOCUMENT_TEXT_DETECTION API：日语字符识别不正确

Question

我们正在使用 Vision API 的 OCR 服务 (DOCUMENT_TEXT_DETECTION)。但是，自 2024 年 3 月 8 日上午 9:00（日本标准时间）左右开始，我们注意到一些日语 (JA) 文本被识别为旧日语字符。

例如，字符“内”(nai) 被识别为旧形式“内”(nai)。并非所有旧字符都会发生这种情况，有时会返回标准日语字符。

这个问题过去没有发生过。此外，对于 2024 年 3 月 8 日之后使用旧字符识别的文档，后续识别也将返回新旧字符混合的结果。

我们已经检查了响应区域设置。最初，我们认为此问题仅影响“und”区域设置，但我们已确认“ja”区域设置也会出现此问题。

最近内部算法有变化吗？

如果这个问题有任何解决方案，请告诉我们。

预先感谢您的帮助。

附加信息：

语言：日语（JA）
操作系统：Windows
端点：https://vision.googleapis.com/v1/images:annotate
SDK：休息

可复制的身体：

{
  "requests": [
    {
      "image": {
        "source": {
          "imageUri": "CLOUD_STORAGE_IMAGE_URI"
        }
       },
       "features": [
         {
           "type": "DOCUMENT_TEXT_DETECTION"
         }
       ]
    }
  ]
}

预期输出：

内閣府

实际产量：

內閣府

Answer 1

请参阅此页。
https://cloud.google.com/vision/docs/release-notes?hl=ja

12 月 5 日的更新已于 3 月 8 日左右反映在稳定版中。
在我们的项目中，日语也被误识别为中文。

DOCUMENT_TEXT_DETECTION API：日语字符识别不正确

问题描述投票：0回答：1

1个回答

最新问题

DOCUMENT_TEXT_DETECTION API：日语字符识别不正确

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1