我正在使用 WebRTC 和 AWS 构建实时音频应用程序,在服务器端,我想将 OpenAI 文本转语音 (TTS) 响应通过管道传输到 WebRTC-HTTP 摄取协议 (WHIP) 端点。
有没有简单的方法可以做到这一点?
在浏览器中,使用浏览器的媒体捕获和流 API,将用户媒体(麦克风和摄像头)发送到 WHIP 端点相当容易。由于浏览器的 WebRTC 和音频 API 在 Node.js 中不可用,我正在努力获取 HTTP 响应或音频文件,并构建一个可以从我的服务器代码发送到 WebRTC 服务器的
MediaStreamTrack
。
我询问了 ChatGPT,尝试了 Gstreamer,尝试了 werift 和 node-webrtc Node.js 包以及 aiortc 和 aws-streamer Python 包,但不断遇到障碍。
任何有关简单方法或替代方法的建议将不胜感激。我对 JavaScript 和 TypeScript 比 Python 更熟悉,但我很乐意使用最简单的解决方案。
保持较低的延迟是理想的选择,但我也很乐意现在就开始工作并稍后进行优化。