单词信息丢失 (WIL) 是衡量自动语音识别 (ASR) 服务(例如 AWS Transcribe、Google Speech-to-Text 等)相对于黄金标准(通常是人工生成的)转录的性能的指标,通常被认为是比字错误率 (WER) 更复杂的衡量标准。
WIL的计算公式如下:
...哪里:
我的问题是:为什么要这样计算?
我不明白 WIL 在这里到底代表什么,尤其是它的指数性质(分子和分母)。
看起来更简单、更容易理解的版本可能是这样的:
您如何用外行的话来描述 WIL 的含义?
单词信息丢失 (WIL) 指标是 2000 年代初期用于测量自动语音识别系统 (ASR) 准确性的不同指标的近似值,即相对信息损失 (RIL) 指标。
RIL 取决于了解插入、删除或替换的单词之间的“相似性”。这通常称为“互信息”。例如,如果 ASR 系统转录“piece”而不是“pieced”,则可能存在高度的互信息。但如果 ASR 转录时说“和平”而不是“碎片”,则相互信息就会较低。同样,“bred”代表“bread”,相互信息也会较少。RIL 的核心是希望对转录中出现的错误进行“排名”,以便某些类型的错误对 ASR 系统的整体准确度得分影响较小。这就是人类语言的运作方式;如果我们听错或误解演讲,我们就能更好地“填补空白”,因为我们对上下文有更好的把握——如果我们谈论早餐,我们知道它是“面包”,我们知道它是“一块”而不是“和平”如果我们谈论馅饼。
WIL 不依赖于了解“命中”单词与“插入”、“删除”或“替换”单词之间的统计关系。WIL 尝试通过“对命中进行加权”和“对未命中进行加权”来近似 RIL。我希望通过 WIL 看到它会“抑制”极低和极高的 WER;但会在进行多次插入、删除或替换时提高 WER。这使得研究人员能够有针对性地进行重新训练或微调针对特定单词、短语或 n-gram 的 ASR 系统。
WIL 的一个特别有趣的应用是在
Whisper:
Radford, A.、Kim, J. W.、Xu, T.、Brockman, G.、McLeavey, C. 和 Sutskever, I.(2023 年 7 月)。通过大规模弱监督实现鲁棒语音识别。国际机器学习会议(第 28492-28518 页)。 PMLR。Whisper 背后的研究人员意识到转录中的小错误(句号、单个字母)可能会导致 WER 下降,因此他们基本上忽略了这些类型的错误。他们正在使用 WIL 的一种形式,但没有称之为 WIL。