我们正在使用 Vision API 的 OCR 服务 (DOCUMENT_TEXT_DETECTION)。但是,自 2024 年 3 月 8 日上午 9:00(日本标准时间)左右开始,我们注意到一些日语 (JA) 文本被识别为旧日语字符。
例如,字符“内”(nai) 被识别为旧形式“内”(nai)。并非所有旧字符都会发生这种情况,有时会返回标准日语字符。
这个问题过去没有发生过。此外,对于 2024 年 3 月 8 日之后使用旧字符识别的文档,后续识别也将返回新旧字符混合的结果。
我们已经检查了响应区域设置。最初,我们认为此问题仅影响“und”区域设置,但我们已确认“ja”区域设置也会出现此问题。
最近内部算法有变化吗?
如果这个问题有任何解决方案,请告诉我们。
预先感谢您的帮助。
附加信息:
可复制的身体:
{
"requests": [
{
"image": {
"source": {
"imageUri": "CLOUD_STORAGE_IMAGE_URI"
}
},
"features": [
{
"type": "DOCUMENT_TEXT_DETECTION"
}
]
}
]
}
预期输出:
内閣府
实际产量:
內閣府
请参阅此页。
https://cloud.google.com/vision/docs/release-notes?hl=ja
12 月 5 日的更新已于 3 月 8 日左右反映在稳定版中。
在我们的项目中,日语也被误识别为中文。