音频处理：如何从同一个人用不同麦克风录制的音频记录中获取相似数据

问题描述投票：0回答：1

我目前正在开发一个说话人识别程序，它应该通过听麦克风来识别说话人。我是音频处理和机器学习的新手，但我为这个项目训练了一个神经网络分类器，它现在只包含 3 个不同的记录。

我训练模型的记录是由不同的麦克风记录的，所以在预测扬声器机器时会混淆。有什么办法可以阻止它吗？以某种方式预处理数据？现在，我只是删除了音频记录的静音部分，并用这些音频文件训练模型。

感谢所有回复。

python

machine-learning

audio

preprocessor

audio-processing

1个回答

1
投票

作为前杜比工程师的背景，我可以告诉你，你需要大量的数据。

只有树木记录是不够的。根本没有足够的数据点来训练。

有几件事你应该考虑和研究。标准化音频，应用过滤器和功能。这意味着寻找频率键。这些频率是关键。并且您的训练应该尽可能多地使用已知的清洁/工作室输入来完成。这将帮助您的模型在引入背景噪音时识别按键。