VGG 和 ResNet 输入可以是原始值而不是图像吗？

我可以使用原始 mel、mfcc、谱质心、谱通量和过零率值作为 VGG 或 ResNet 的输入来执行音频分类任务吗？

我读到的大多数研究都涉及获取频谱图并将其输入 CNN 模型。我想知道我是否可以使用原始值

0
投票

是的，可以，但是您必须更改输入层，以考虑到现在您拥有不同数量的通道（而不是 RGB 图像的 3 个）。

此外，您还希望确保您提供的任何原始数据都具有 CNN 架构有意义的结构。

在某种程度上，频谱图将特征从时域转换到频域，这使得您可以将频谱图视为图像并识别某些特征，这就是为什么您可以通过图像分类进行音频分类。