如何衡量 MelGan 生成的合成音频的质量

问题描述 投票:0回答:0

我使用 melgan 作为我的声码器来将梅尔频谱图恢复为波形。我想使用 pesq、mcd 或类似的指标来测量 melgan 生成的波形的质量。

这里是问题所在,我注意到 melgan 生成的一些波形与原始波形(在提取 mel-spectrogram 阶段之前的确切波形)有不同的长度。这让我无法计算原始波形和生成波形之间的 pesq。 (pesq 要求两个输入波形长度相同)

我有两个问题。

  1. 是否有更好的方法来衡量 melgan 生成的合成波形的质量?
  2. 带有 DTW(动态时间扭曲)的 f0 RMSE 是否有助于解决这种情况? DTW 对齐原始波形和生成的波形,然后计算 f0 RMSE 作为生成波形质量的度量。
deep-learning signal-processing waveform spectrogram
© www.soinside.com 2019 - 2024. All rights reserved.