使用一个数据集训练的扬声器验证模型在另一个数据集上的表现不佳

问题描述投票：0回答：1

我对音频信号处理非常陌生，更具体地说是说话者验证。我已经训练了一个基于CNN的暹罗网络来进行说话者验证。整个过程由一个数据集进行训练，其中选择了720人VAD和成帧后的语音片段对进行训练。到训练结束时，该模型在训练和验证数据集上的准确性分别达到85％和83％。在同一数据集中有15个陌生人的1000个语音剪辑对，该模型的准确率仍达到82％。但是，当使用另一个数据集中的10000个陌生人的10000个语音剪辑对进行测试时，该模型仅提供68％的准确性。

我想指出：

1。对于训练和测试阶段，来自两个数据集的语音剪辑都是干净的，没有任何噪音。

2。通过目视判断不同数据集的语音片段的差异，来自训练数据集的语音片段通常在时域上具有更大的振幅，而构成测试数据集的语音片段具有较弱的振幅（请参见下图）线索）。也许这会使训练和测试样本不符合i.d.（独立且均匀分布）的条件？

因此，基于上述问题，是否有专家可以帮助我指出问题所在？还有消除它的策略吗？

如果可以通过互联网上免费的开源演讲者数据集解决此问题，我会购买。否则，我将倾向于使用数据集有限的解决方案。

谢谢，我真的很感激！

deep-learning

signal-processing

audio-processing

1个回答

0
投票

幅度水平和SNR的差异很大。即使您认为这不是人耳的“嘈杂”条件，它也可能会影响模型性能。

为了弥补这一点，您可以：

使用数据增强来创建具有不同SNR水平的样本进行训练
使用级别的归一化，因此模型不依赖级别

使用一个数据集训练的扬声器验证模型在另一个数据集上的表现不佳

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1