使用Watson SDK进行连续语音到文本

问题描述投票：1回答：1

我以前一直使用IBM Watson语音文本服务来转录已预先录制的完整音频文件。但是，我现在正在尝试使用说话人识别功能进行实时转录。这意味着我不能单独发送每个短文件（以大约30秒的块记录音频），因为必须保持扬声器的上下文。如何在使用Python的同时做到这一点？

websocket

speech-to-text

ibm-watson

libwebsockets

1个回答

0
投票

您需要使用WebSocket进行实时转录。你传入一大堆音频，Watson用转录作出回应。你只需要检测沉默就可以将流分解成块。

您还需要指定用于转录的语言，并且当源音频来自电话时更好，您应该使用窄带模型以获得最佳效果。

IBM®建议您将宽带模型用于响应式实时应用程序（例如，用于实时语音应用程序）。 Reference。

你可以在这个link中用Python中的Watson STT检查一个完整的例子。此示例使用Nexmo，但您可以获得在任何应用程序中使用实时脚本的逻辑。