我正在尝试实施TTS。我刚刚读过有关Wavenet的文章,但是我对本地条件感到困惑。原始论文here解释了为局部调节添加时间序列,this article解释了为局部调节添加梅尔谱图功能很好。众所周知,Wavenet是一种生成模型,在进行条件处理时会使用原始音频输入来生成高音频输出,
我的问题是,所述梅尔频谱图特征是输入时传递的原始音频或其他音频。
第二,为实现TTS,音频输入将由其他一些TTS系统生成,其波形质量将通过wavenet得以改善,我是这样认为的吗?
请帮助,非常需要。
谢谢
Mel功能是由实际的TTS模块根据文本(例如,tacotron2)创建的,而不是运行声码器模块(Wavenet)来创建语音的。
最好尝试使用Nvidia / tacotron2 + nvidia / waveglow之类的现有实现。 Waveglow比wavenet更好,更快。 Wavenet非常慢。