我正在将多个 log-mel 频谱图从 .wav 文件转换为图像。 我想破坏尽可能少的信息,因为我计划将生成的图像用于计算机视觉任务。 要将数据转换为图像格式,我目前使用简单的
sklearn.MinMaxScaler((0, 255))
。
为了适应这个定标器,我在我所有的频谱图上使用所有频率的最小和最大能量。
我应该用每个特定频率的最小和最大能量来缩放我的频谱图吗?
具有不同缩放特征的不同频率是否有意义?
频谱图很难用作计算机视觉算法的输入,特别是神经网络,因为它们具有倾斜的非正态分布特性。要解决这个问题,您应该:
sklearn.MinMaxScaler((0, 1))
。对于经典的计算机视觉,这可能是sklearn.MinMaxScaler((0, 255))
所以,
我应该用最小和最大能量来缩放我的频谱图吗? 每个特定频率?
是的,一旦标准化完成
和
不同的频率有不同的意义吗 缩放功能?
视情况而定。对于 CNN,您的输入数据需要保持一致才能获得良好的结果。对于经典的计算机视觉方法,可能是,取决于你想用它做什么