在小型训练数据集上训练的文本转语音模型

问题描述 投票:0回答:1

我需要一个模型,可以使用包含转录本和最多 20 个句子的 wav 文件的数据集进行训练。 我尝试在这样的数据集上训练https://github.com/coqui-ai/TTS,但它根本训练得不好。这个推论只是噪音而不是文字。

我正在研究https://github.com/microsoft/SpeechT5/tree/main/SpeechLM#pre-trained-and-fine-tuned-models但他们使用的微调数据集似乎也有> 100数小时的音频内容。

研究解决这个问题的最佳模型是什么?

machine-learning audio artificial-intelligence text-to-speech huggingface
1个回答
0
投票

像 Coqui 这样的服务只需要几秒钟就可以克隆我的声音。但是当我想训练我的模型时,我需要几个小时的语音,结果不太好。我错过了什么?

© www.soinside.com 2019 - 2024. All rights reserved.