我正在开发一款基于语音的人工智能的 iOS 应用程序;也就是说,它的目的是从麦克风获取语音输入,将其转换为文本,将其发送给人工智能代理,然后通过扬声器输出返回的文本。我已经一切正常,不过使用按钮来开始和停止录制语音(用于语音识别的 SpeechKit、用于 AI 的 API.AI、用于输出的 Amazon Polly)。
我需要的是让麦克风始终打开,并在用户开始和结束说话时自动开始和停止录制用户的声音。这个应用程序是为非正统的环境开发的,用户将无法访问屏幕(但他们将有一个高端猎枪式麦克风来录制文本)。
我的研究表明,这一难题被称为“语音活动检测”,似乎是整个基于语音的人工智能系统中最困难的步骤之一。
我希望有人可以提供一些简单的(Swift)代码来自己实现这一点,或者为我指明可以在这个项目中实现的一些不错的库/SDK 的方向。
为了获得良好的 VAD 算法实现,您可以使用 py-webrtcvad。
它是 C 代码的 Python 接口,您可以从项目中导入 C 文件并从 swift 中使用它们。
米克·伯恩。
这个问题你解决了吗?
我也有同样的问题。如果你解决了,能告诉我概念或解决方案吗?
我要在评论中提出问题,但我不能发表评论,因为我是 StackOverflow 新手。对不起。