VGG 和 ResNet 输入可以是原始值而不是图像吗?

问题描述 投票:0回答:1

我可以使用原始 mel、mfcc、谱质心、谱通量和过零率值作为 VGG 或 ResNet 的输入来执行音频分类任务吗?

我读到的大多数研究都涉及获取频谱图并将其输入 CNN 模型。我想知道我是否可以使用原始值

machine-learning deep-learning conv-neural-network resnet vgg-net
1个回答
0
投票

是的,可以,但是您必须更改输入层,以考虑到现在您拥有不同数量的通道(而不是 RGB 图像的 3 个)。

此外,您还希望确保您提供的任何原始数据都具有 CNN 架构有意义的结构。

在某种程度上,频谱图将特征从时域转换到频域,这使得您可以将频谱图视为图像并识别某些特征,这就是为什么您可以通过图像分类进行音频分类。

© www.soinside.com 2019 - 2024. All rights reserved.