置信分数在语音识别中是什么意思？

置信分数在语音识别中是什么意思？

问题描述投票：0回答：1

很多文字服务（例如Google的语音服务）都提供了置信度得分。至少对于Google而言，它介于0到1之间，但显然不是特定转录正确的可能性，因为对其他转录的置信度加起来大于1。而且，较高置信度的结果有时排名较低。

那么，这是什么？语音识别社区中是否存在“信心分数”的公认含义？我已经看到了对minimum Bayes risk的引用，但是即使这是他们正在做的事情，也并不能很好地回答这个问题，因为这取决于对辅助损耗函数的选择。

machine-learning

speech-recognition

speech-to-text

ctc

google-speech-to-text-api

1个回答

0
投票

但显然不是特定转录正确的概率，因为对替代转录的置信度总计超过1

统计算法从不给您概率值，它们给您估计值。在某些情况下，估算值可能并不准确，更多的是平均而言它们接近理想值。置信度必须进行校准。您可以在

中检查一些理论

言语自信度的校准承认董宇，IEEE高级会员，李金玉，IEEE会员，李登，研究员https://www.microsoft.com/en-us/research/wp-content/uploads/2011/01/ConfidenceCalibration.pdf

语音识别社区中是否存在“置信度得分”的公认含义？

不是，每个人都使用自己的算法。从简单的贝叶斯风险（根本不是最好的估计）到更高级的方法。真的不可能知道Google做什么。在Kaldi中，还有一个好的算法的实现：https://github.com/kaldi-asr/kaldi/blob/master/egs/ami/s5/local/confidence_calibration.sh