波网的输入是什么？

波网的输入是什么？

问题描述投票：1回答：1

我正在尝试实施TTS。我刚刚读过有关Wavenet的文章，但是我对本地条件感到困惑。原始论文here解释了为局部调节添加时间序列，this article解释了为局部调节添加梅尔谱图功能很好。众所周知，Wavenet是一种生成模型，在进行条件处理时会使用原始音频输入来生成高音频输出，

我的问题是，所述梅尔频谱图特征是输入时传递的原始音频或其他音频。

第二，为实现TTS，音频输入将由其他一些TTS系统生成，其波形质量将通过wavenet得以改善，我是这样认为的吗？

请帮助，非常需要。

谢谢

text-to-speech

1个回答

0
投票

Mel功能是由实际的TTS模块根据文本（例如，tacotron2）创建的，而不是运行声码器模块（Wavenet）来创建语音的。

最好尝试使用Nvidia / tacotron2 + nvidia / waveglow之类的现有实现。 Waveglow比wavenet更好，更快。 Wavenet非常慢。