在小型训练数据集上训练的文本转语音模型

我需要一个模型，可以使用包含转录本和最多 20 个句子的 wav 文件的数据集进行训练。我尝试在这样的数据集上训练https://github.com/coqui-ai/TTS，但它根本训练得不好。这个推论只是噪音而不是文字。

我正在研究https://github.com/microsoft/SpeechT5/tree/main/SpeechLM#pre-trained-and-fine-tuned-models但他们使用的微调数据集似乎也有> 100数小时的音频内容。

研究解决这个问题的最佳模型是什么？

0
投票

像 Coqui 这样的服务只需要几秒钟就可以克隆我的声音。但是当我想训练我的模型时，我需要几个小时的语音，结果不太好。我错过了什么？