我正在寻找一种加速英语演讲的算法。用于加速音乐的算法会在速度加倍的情况下产生许多伪影,我正在寻找能够以3x或4x的速度工作且清晰度可接受的东西。
语音,语调,暂停都需要尽可能地保留,因此语音到文本+文本到语音的方法不起作用。
传统的声码器方法似乎还不够(显然我不知道所有这些)。我对一些新的程序或机器学习类型方法感兴趣。我有几百个小时的演讲,每个演讲者都有成绩单,所以培训不会有问题。
使用案例:讲师只是以不可能的慢节奏说话。例如。我通常在Lynda上以2倍的速度收听录音,那些家伙甚至都不是很慢。
Sonic算法非常适合语音。