如何使用带有PyTorch的CNN处理用于音频分类的输入数据？

问题描述投票：1回答：1

[当一名工程师学习DSP和ML领域时，我正在从事音频分类项目，其输入是低音，键盘，吉他等（NSynth Dataset by the Magenta team at Google）等乐器的短片（4秒）。

想法是将所有短片（.wav文件）转换为频谱图或黑白频谱图，然后应用CNN训练模型。

但是，我的问题是，由于整个数据集很大（大约23GB），我想知道是否应该首先将所有音频文件转换为PNG之类的图像，然后再应用CNN。我觉得这可能要花很多时间，而且由于音频和图像（可能高达70GB），它将使输入数据的存储空间增加一倍。

因此，我想知道这里是否有任何变通办法可以加快该过程。

提前感谢。

python

machine-learning

classification

pytorch

signal-processing

1个回答

1
投票

预处理是完全值得的。您很可能最终会运行多个实验，然后网络才能按预期运行，并且您不想每次都在浪费时间对功能进行预处理，而是想更改一些超参数。