为什么字信息丢失(WIL)是这样计算的?

问题描述 投票:0回答:1

单词信息丢失 (WIL) 是衡量自动语音识别 (ASR) 服务(例如 AWS Transcribe、Google Speech-to-Text 等)相对于黄金标准(通常是人工生成的)转录的性能的指标,通常被认为是比字错误率 (WER) 更复杂的衡量标准。

WIL的计算公式如下:

...哪里:

  • H = 点击率(黄金标准和 ASR 转录本之间的匹配词)
  • N = 黄金标准成绩单中的总字数
  • P = ASR 记录中的总单词数
  • S = 替换(一个单词替换为另一个单词)
  • D = 删除(黄金标准转录本中的单词在 ASR 转录本中不存在)
  • I = 插入(ASR 转录本中的单词在黄金标准转录本中不存在)

我的问题是:为什么要这样计算?

我不明白 WIL 在这里到底代表什么,尤其是它的指数性质(分子和分母)。

看起来更简单、更容易理解的版本可能是这样的:

您如何用外行的话来描述 WIL 的含义?

speech-recognition speech-to-text speech automatic-speech-recognition
1个回答
0
投票

单词信息丢失 (WIL) 指标是 2000 年代初期用于测量自动语音识别系统 (ASR) 准确性的不同指标的近似值,即相对信息损失 (RIL) 指标。

RIL 取决于了解插入、删除或替换的单词之间的“相似性”。这通常称为“互信息”。例如,如果 ASR 系统转录“piece”而不是“pieced”,则可能存在高度的互信息。但如果 ASR 转录时说“和平”而不是“碎片”,则相互信息就会较低。同样,“bred”代表“bread”,相互信息也会较少。

RIL 的核心是希望对转录中出现的错误进行“排名”,以便某些类型的错误对 ASR 系统的整体准确度得分影响较小。这就是人类语言的运作方式;如果我们听错或误解演讲,我们就能更好地“填补空白”,因为我们对上下文有更好的把握——如果我们谈论早餐,我们知道它是“面包”,我们知道它是“一块”而不是“和平”如果我们谈论馅饼。

WIL 不依赖于了解“命中”单词与“插入”、“删除”或“替换”单词之间的统计关系。WIL 尝试通过“对命中进行加权”和“对未命中进行加权”来近似 RIL。我希望通过 WIL 看到它会“抑制”极低和极高的 WER;但会在进行多次插入、删除或替换时提高 WER。这使得研究人员能够有针对性地进行重新训练或微调针对特定单词、短语或 n-gram 的 ASR 系统。

WIL 的一个特别有趣的应用是在

Whisper:

Radford, A.、Kim, J. W.、Xu, T.、Brockman, G.、McLeavey, C. 和 Sutskever, I.(2023 年 7 月)。通过大规模弱监督实现鲁棒语音识别。国际机器学习会议(第 28492-28518 页)。 PMLR。

Whisper 背后的研究人员意识到转录中的小错误(句号、单个字母)可能会导致 WER 下降,因此他们基本上忽略了这些类型的错误。他们正在使用 WIL 的一种形式,但没有称之为 WIL。

© www.soinside.com 2019 - 2024. All rights reserved.