隐马尔可夫模型用于连续语音中的音素识别

问题描述 投票:1回答:1

当我有一个孤立的音素时,我知道如何应用隐马尔可夫模型(HMM)。我只需要创建几个HMM模型(每个模型至少有3个状态),每个音素一个,计算所有这些模型的前向算法,并查看哪一个具有最大概率。

但现在我有一个连续的语音数据库,每帧都标有音素(TIMIT)。我如何训练HMM以便能够识别连续语音中的音素?

speech-recognition speech-to-text hidden-markov-models
1个回答
1
投票

简而言之:对于连续语音识别,您可以使用辅助静音模型将音素模型连接到大型HMM。

首先,您可以在隔离的音素上训练模型并将其应用于连续语音。例如,您可以根据现有标签对训练音频进行分块。

在识别步骤中,将维特比解码(最可能的隐藏状态序列)应用于组合模型等同于识别音素序列。有关详细信息,您可以从HTK书籍中学习相应的chapter

为了在连续数据上训练HMM,你也会做类似的技巧:将单个音素模型组合成整个基础句子的大型模型。训练框架将找到模型状态和音频之间的最佳对齐。再次,HTK book提供了一个很好的教程。

Phoneme Recognition on the TIMIT Database提供了对方法的完整概述,并提供了很多参考文献。例如,this classical article描述了与上下文无关的音素识别的基本方法。

© www.soinside.com 2019 - 2024. All rights reserved.