语音分类机器学习

语音分类机器学习

问题描述投票：-1回答：1

所以，我有一个人说的9k个1秒的wav文件。这些标记通过讲话者是否戴着口罩来标记。我应该提出一种机器学习模型来对这些标准进行分类。有面具的班级分布率为51.15％，没有面具则为48.85％

到目前为止，我尝试在音频的mfcc功能上使用KNN。测试数据的准确性约为56％。

我还尝试将wav文件转换为jpg频谱图并应用CNN。该测试数据的准确率达到60％。

但是我没有那么多经验，我不确定音频的哪些功能最能解决这个问题。

此外，如果您可以针对此特定问题推荐机器学习模型。

所以，我有一个人说的9k个1秒的wav文件。这些标记通过讲话者是否戴着口罩来标记。我应该提出一种机器学习模型，以...

machine-learning

neural-network

conv-neural-network

speech-recognition

knn

1个回答

0
投票

由于音频样本只有一秒钟，您可能将它们转换为一个numpy数组，然后转换为一个向量，并将其用作带掩码或不带掩码（1或0的神经网络，可能是RNN）的输入）作为标签。