数字语音识别的特征提取

数字语音识别的特征提取

问题描述投票：0回答：1

[我正在寻找一种从音频中提取特征的方法，其中我说过一个数字，用于通过神经网络的反向传播来对数字1-10进行语音识别（每个数字10个样本，每个数字5个样本用于测试）。 >

[我尝试使用原始音频数据，也尝试在fft之后馈送数据，并且仅以十个最高频率馈送数据，但失败。

您能否建议一种提取音频特征的方法，以帮助神经网络获得合理的结果？这是一个简单的项目，所以我的目标并不是追求极高的性能，而是为了表现出这种网络学习能力的合理表现。

[我正在寻找一种从音频中提取特征的方法，其中我说了一个数字，用于通过神经网络的反向传播（每个数字10个样本和5个样本...]，对数字1-10进行语音识别）>

neural-network

speech-recognition

feature-extraction

1个回答

0
投票

为什么不尝试MFCC？ MFCC实际上是ASR中的标准。他们在设计时并没有考虑DNN，但事实证明它们可以与其他几种ASR实现一起使用（最著名的是HMM）。