语音分类机器学习

问题描述 投票:-1回答:1

所以,我有一个人说的9k个1秒的wav文件。这些标记通过讲话者是否戴着口罩来标记。我应该提出一种机器学习模型来对这些标准进行分类。有面具的班级分布率为51.15%,没有面具则为48.85%

到目前为止,我尝试在音频的mfcc功能上使用KNN。测试数据的准确性约为56%。

我还尝试将wav文件转换为jpg频谱图并应用CNN。该测试数据的准确率达到60%。

但是我没有那么多经验,我不确定音频的哪些功能最能解决这个问题。

此外,如果您可以针对此特定问题推荐机器学习模型。

所以,我有一个人说的9k个1秒的wav文件。这些标记通过讲话者是否戴着口罩来标记。我应该提出一种机器学习模型,以...

machine-learning neural-network conv-neural-network speech-recognition knn
1个回答
0
投票

由于音频样本只有一秒钟,您可能将它们转换为一个numpy数组,然后转换为一个向量,并将其用作带掩码或不带掩码(1或0的神经网络,可能是RNN)的输入)作为标签。

© www.soinside.com 2019 - 2024. All rights reserved.