我目前正在开发一个说话人识别程序,它应该通过听麦克风来识别说话人。我是音频处理和机器学习的新手,但我为这个项目训练了一个神经网络分类器,它现在只包含 3 个不同的记录。
我训练模型的记录是由不同的麦克风记录的,所以在预测扬声器机器时会混淆。有什么办法可以阻止它吗?以某种方式预处理数据?现在,我只是删除了音频记录的静音部分,并用这些音频文件训练模型。
感谢所有回复。
作为前杜比工程师的背景,我可以告诉你,你需要大量的数据。
只有树木记录是不够的。根本没有足够的数据点来训练。
有几件事你应该考虑和研究。 标准化音频,应用过滤器和功能。这意味着寻找频率键。 这些频率是关键。并且您的训练应该尽可能多地使用已知的清洁/工作室输入来完成。这将帮助您的模型在引入背景噪音时识别按键。