我正在一个需要孟加拉语TTS的项目中工作,但它需要脱机工作并且是开源的。我需要使用一些免费的离线解决方案,因此无法使用Google Cloud API。
我基于本文https://arxiv.org/pdf/1710.08969.pdf编写了文本到语音合成模型>
此TTS的功能是:
它可以在线运行。
在CPU和GPU上都可以工作(在GPU上可以更快地推断)。
它使用一个简单的解析器,它将数字键转换为相应的语音表示形式。
示例:解析器将转换为['ঊনিশশparহয়']。
它可以使用简单的分段-批处理-合并技巧来合成任意长的句子。
它是免费使用的(即使性能不是SOTA,但对于Bangla,它的性能却几乎胜过所有参数模型)。]]
它是开源的,可在GitHub上找到:https://github.com/zabir-nabil/bangla-tts