实时 STT 模型的高延迟

问题描述投票：0回答：1

我正在 Asterisk 中创建一个拨号方案，它就像一个人工智能语音助手。步骤如下：

使用实时 Websocket STT 从呼叫者获取音频输入。
将 STT 的输出提供给生成文本响应的 NLP 模型。
将 NLP 的输出返回到 TTS 模型，然后播放带有响应的音频。

问题在于，从呼叫者停止说话到人工智能回复之间的延迟很高。

到目前为止我尝试过的：

录制用户的音频，然后将其发送到 Whisper API，并将响应返回到 NLP，然后是 TTS，但这会导致大约 8 秒或更长时间的沉默。
使用库
```
whisper-streaming
```
实时获取whisper的输出并重做相同的步骤，这会导致更多的延迟，因为它会向服务器发送多个请求以获得响应。
使用
```
Vosk
```
，一种 STT 实时解决方案，导致大约 6 到 10 秒的延迟。

目前，我正在寻找一个库来使 TTS 模型也变得实时，但延迟问题主要在 STT 方面，有人可以建议解决方案来增强此拨号方案的延迟吗？

asterisk openai-whisper vosk

1个回答

0
投票

“实时”STT 是一种骗局。他们都说他们是最快的，但实际测试并不能证实这一点。

使用Google的非实时，速度更快。

Google 演讲结束后，您可以获得低至 300 毫秒的响应。如果代码编写正确。

Vosk 给出近 0.7 秒。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.