我对音频信号处理非常陌生,更具体地说是说话者验证。我已经训练了一个基于CNN的暹罗网络来进行说话者验证。整个过程由一个数据集进行训练,其中选择了720人VAD和成帧后的语音片段对进行训练。到训练结束时,该模型在训练和验证数据集上的准确性分别达到85%和83%。在同一数据集中有15个陌生人的1000个语音剪辑对,该模型的准确率仍达到82%。但是,当使用另一个数据集中的10000个陌生人的10000个语音剪辑对进行测试时,该模型仅提供68%的准确性。
我想指出:
1。对于训练和测试阶段,来自两个数据集的语音剪辑都是干净的,没有任何噪音。
2。通过目视判断不同数据集的语音片段的差异,来自训练数据集的语音片段通常在时域上具有更大的振幅,而构成测试数据集的语音片段具有较弱的振幅(请参见下图)线索)。也许这会使训练和测试样本不符合i.d.(独立且均匀分布)的条件?
因此,基于上述问题,是否有专家可以帮助我指出问题所在?还有消除它的策略吗?
如果可以通过互联网上免费的开源演讲者数据集解决此问题,我会购买。否则,我将倾向于使用数据集有限的解决方案。
谢谢,我真的很感激!
幅度水平和SNR的差异很大。即使您认为这不是人耳的“嘈杂”条件,它也可能会影响模型性能。
为了弥补这一点,您可以: