我需要一个模型,可以使用包含转录本和最多 20 个句子的 wav 文件的数据集进行训练。 我尝试在这样的数据集上训练https://github.com/coqui-ai/TTS,但它根本训练得不好。这个推论只是噪音而不是文字。
我正在研究https://github.com/microsoft/SpeechT5/tree/main/SpeechLM#pre-trained-and-fine-tuned-models但他们使用的微调数据集似乎也有> 100数小时的音频内容。
研究解决这个问题的最佳模型是什么?
像 Coqui 这样的服务只需要几秒钟就可以克隆我的声音。但是当我想训练我的模型时,我需要几个小时的语音,结果不太好。我错过了什么?