波网的输入是什么?

问题描述 投票:1回答:1

我正在尝试实施TTS。我刚刚读过有关Wavenet的文章,但是我对本地条件感到困惑。原始论文here解释了为局部调节添加时间序列,this article解释了为局部调节添加梅尔谱图功能很好。众所周知,Wavenet是一种生成模型,在进行条件处理时会使用原始音频输入来生成高音频输出,

我的问题是,所述梅尔频谱图特征是输入时传递的原始音频或其他音频。

第二,为实现TTS,音频输入将由其他一些TTS系统生成,其波形质量将通过wavenet得以改善,我是这样认为的吗?

请帮助,非常需要。

谢谢

text-to-speech
1个回答
0
投票

Mel功能是由实际的TTS模块根据文本(例如,tacotron2)创建的,而不是运行声码器模块(Wavenet)来创建语音的。

最好尝试使用Nvidia / tacotron2 + nvidia / waveglow之类的现有实现。 Waveglow比wavenet更好,更快。 Wavenet非常慢。

© www.soinside.com 2019 - 2024. All rights reserved.