我正在尝试使用HMM构建非常基本的单词识别器,即鉴于单个单词的发音(不超过一个),我需要对其进行分类。到目前为止,我已经提取了音素级功能(MFCC)。更具体地说,对于每个音频信号,我都有一个(410 x 1)特征向量。但是现在我有点卡住了:
PS:我已经从Lawrence R. Rabiner(以及其他一些人)签出了this excellent write-up,但这个想法仍然有些含糊。
AFAIK,您可以为每个单词使用HMM。如果您想识别两个单词GOOD,MORNING,则至少需要2 hmms,每个单词代表GOOD,MORNING。使用Viterbi估计此HMM的参数
或baum_welch(在rabiner的论文中。)>
如果您有这两个嗯,现在只计算总帧概率P(W | MFCCs,HMM_GOOD)和P(W | MFCC,HMM_MORNING),更好(更大)。
请咨询HTK书http://www.dsic.upv.es/docs/posgrado/20/RES/materialesDocentes/alejandroViewgraphs/htkbook.pdf