实时 STT 模型的高延迟

问题描述 投票:0回答:1

我正在 Asterisk 中创建一个拨号方案,它就像一个人工智能语音助手。 步骤如下:

  1. 使用实时 Websocket STT 从呼叫者获取音频输入。
  2. 将 STT 的输出提供给生成文本响应的 NLP 模型。
  3. 将 NLP 的输出返回到 TTS 模型,然后播放带有响应的音频。

问题在于,从呼叫者停止说话到人工智能回复之间的延迟很高。

到目前为止我尝试过的:

  • 录制用户的音频,然后将其发送到 Whisper API,并将响应返回到 NLP,然后是 TTS,但这会导致大约 8 秒或更长时间的沉默。
  • 使用库
    whisper-streaming
    实时获取whisper的输出并重做相同的步骤,这会导致更多的延迟,因为它会向服务器发送多个请求以获得响应。
  • 使用
    Vosk
    ,一种 STT 实时解决方案,导致大约 6 到 10 秒的延迟。

目前,我正在寻找一个库来使 TTS 模型也变得实时,但延迟问题主要在 STT 方面,有人可以建议解决方案来增强此拨号方案的延迟吗?

asterisk openai-whisper vosk
1个回答
0
投票

“实时”STT 是一种骗局。他们都说他们是最快的,但实际测试并不能证实这一点。

使用Google的非实时,速度更快。

Google 演讲结束后,您可以获得低至 300 毫秒的响应。如果代码编写正确。

Vosk 给出近 0.7 秒。

© www.soinside.com 2019 - 2024. All rights reserved.