置信分数在语音识别中是什么意思?

问题描述 投票:0回答:1

很多文字服务(例如Google的语音服务)都提供了置信度得分。至少对于Google而言,它介于0到1之间,但显然不是特定转录正确的可能性,因为对其他转录的置信度加起来大于1。而且,较高置信度的结果有时排名较低。

那么,这是什么?语音识别社区中是否存在“信心分数”的公认含义?我已经看到了对minimum Bayes risk的引用,但是即使这是他们正在做的事情,也并不能很好地回答这个问题,因为这取决于对辅助损耗函数的选择。

machine-learning speech-recognition speech-to-text ctc google-speech-to-text-api
1个回答
0
投票

但显然不是特定转录正确的概率,因为对替代转录的置信度总计超过1

统计算法从不给您概率值,它们给您估计值。在某些情况下,估算值可能并不准确,更多的是平均而言它们接近理想值。置信度必须进行校准。您可以在

中检查一些理论

言语自信度的校准承认董宇,IEEE高级会员,李金玉,IEEE会员,李登,研究员https://www.microsoft.com/en-us/research/wp-content/uploads/2011/01/ConfidenceCalibration.pdf

语音识别社区中是否存在“置信度得分”的公认含义?

不是,每个人都使用自己的算法。从简单的贝叶斯风险(根本不是最好的估计)到更高级的方法。真的不可能知道Google做什么。在Kaldi中,还有一个好的算法的实现:https://github.com/kaldi-asr/kaldi/blob/master/egs/ami/s5/local/confidence_calibration.sh

© www.soinside.com 2019 - 2024. All rights reserved.