用于训练歌声合成神经网络的 Mel Spectogram 归一化

问题描述 投票:0回答:0

训练歌声合成神经网络推荐的梅尔频谱归一化技术是什么?我的配置设置是

 n_fft= 2048, hop_length= 512,  n_mels = 80

我已经使用下面的代码(取自 whisper repo)实现了规范化,但它并没有产生令人满意的结果。

    log_spec = torch.clamp(mel_spec, min=1e-10).log10()
    log_spec = torch.maximum(log_spec, log_spec.max() - 8.0)
    log_spec = (log_spec + 4.0) / 4.0

我预计范围在 0 和 1 之间,但它没有生成在 0 和 1 之间。请建议一些合适的梅尔频谱归一化技术。

python normalization spectrogram mel
© www.soinside.com 2019 - 2024. All rights reserved.