隐马尔可夫模型用于连续语音中的音素识别

隐马尔可夫模型用于连续语音中的音素识别

问题描述投票：1回答：1

当我有一个孤立的音素时，我知道如何应用隐马尔可夫模型（HMM）。我只需要创建几个HMM模型（每个模型至少有3个状态），每个音素一个，计算所有这些模型的前向算法，并查看哪一个具有最大概率。

但现在我有一个连续的语音数据库，每帧都标有音素（TIMIT）。我如何训练HMM以便能够识别连续语音中的音素？

speech-recognition

speech-to-text

hidden-markov-models

1个回答

1
投票

简而言之：对于连续语音识别，您可以使用辅助静音模型将音素模型连接到大型HMM。

首先，您可以在隔离的音素上训练模型并将其应用于连续语音。例如，您可以根据现有标签对训练音频进行分块。

在识别步骤中，将维特比解码（最可能的隐藏状态序列）应用于组合模型等同于识别音素序列。有关详细信息，您可以从HTK书籍中学习相应的chapter。

为了在连续数据上训练HMM，你也会做类似的技巧：将单个音素模型组合成整个基础句子的大型模型。训练框架将找到模型状态和音频之间的最佳对齐。再次，HTK book提供了一个很好的教程。

Phoneme Recognition on the TIMIT Database提供了对方法的完整概述，并提供了很多参考文献。例如，this classical article描述了与上下文无关的音素识别的基本方法。