数字语音识别的特征提取

问题描述 投票:0回答:1

[我正在寻找一种从音频中提取特征的方法,其中我说过一个数字,用于通过神经网络的反向传播来对数字1-10进行语音识别(每个数字10个样本,每个数字5个样本用于测试)。 >

[我尝试使用原始音频数据,也尝试在fft之后馈送数据,并且仅以十个最高频率馈送数据,但失败。

您能否建议一种提取音频特征的方法,以帮助神经网络获得合理的结果?这是一个简单的项目,所以我的目标并不是追求极高的性能,而是为了表现出这种网络学习能力的合理表现。

[我正在寻找一种从音频中提取特征的方法,其中我说了一个数字,用于通过神经网络的反向传播(每个数字10个样本和5个样本...],对数字1-10进行语音识别)>

neural-network speech-recognition feature-extraction
1个回答
0
投票
为什么不尝试MFCC? MFCC实际上是ASR中的标准。他们在设计时并没有考虑DNN,但事实证明它们可以与其他几种ASR实现一起使用(最著名的是HMM)。
© www.soinside.com 2019 - 2024. All rights reserved.