我正在 Asterisk 中创建一个拨号方案,它就像一个人工智能语音助手。 步骤如下:
问题在于,从呼叫者停止说话到人工智能回复之间的延迟很高。
到目前为止我尝试过的:
whisper-streaming
实时获取whisper的输出并重做相同的步骤,这会导致更多的延迟,因为它会向服务器发送多个请求以获得响应。Vosk
,一种 STT 实时解决方案,导致大约 6 到 10 秒的延迟。目前,我正在寻找一个库来使 TTS 模型也变得实时,但延迟问题主要在 STT 方面,有人可以建议解决方案来增强此拨号方案的延迟吗?
“实时”STT 是一种骗局。他们都说他们是最快的,但实际测试并不能证实这一点。
使用Google的非实时,速度更快。
Google 演讲结束后,您可以获得低至 300 毫秒的响应。如果代码编写正确。
Vosk 给出近 0.7 秒。