如何使用带有PyTorch的CNN处理用于音频分类的输入数据?

问题描述 投票:1回答:1

[当一名工程师学习DSP和ML领域时,我正在从事音频分类项目,其输入是低音,键盘,吉他等(NSynth Dataset by the Magenta team at Google)等乐器的短片(4秒)。

想法是将所有短片(.wav文件)转换为频谱图或黑白频谱图,然后应用CNN训练模型。

但是,我的问题是,由于整个数据集很大(大约23GB),我想知道是否应该首先将所有音频文件转换为PNG之类的图像,然后再应用CNN。我觉得这可能要花很多时间,而且由于音频和图像(可能高达70GB),它将使输入数据的存储空间增加一倍。

因此,我想知道这里是否有任何变通办法可以加快该过程。

提前感谢。

python machine-learning classification pytorch signal-processing
1个回答
1
投票

预处理是完全值得的。您很可能最终会运行多个实验,然后网络才能按预期运行,并且您不想每次都在浪费时间对功能进行预处理,而是想更改一些超参数。

© www.soinside.com 2019 - 2024. All rights reserved.