[我正在寻找一种从音频中提取特征的方法,其中我说过一个数字,用于通过神经网络的反向传播来对数字1-10进行语音识别(每个数字10个样本,每个数字5个样本用于测试)。 >
[我尝试使用原始音频数据,也尝试在fft之后馈送数据,并且仅以十个最高频率馈送数据,但失败。
您能否建议一种提取音频特征的方法,以帮助神经网络获得合理的结果?这是一个简单的项目,所以我的目标并不是追求极高的性能,而是为了表现出这种网络学习能力的合理表现。
[我正在寻找一种从音频中提取特征的方法,其中我说了一个数字,用于通过神经网络的反向传播(每个数字10个样本和5个样本...],对数字1-10进行语音识别)>