iOS 上麦克风输入的语音活动检测

问题描述 投票:0回答:2

我正在开发一款基于语音的人工智能的 iOS 应用程序;也就是说,它的目的是从麦克风获取语音输入,将其转换为文本,将其发送给人工智能代理,然后通过扬声器输出返回的文本。我已经一切正常,不过使用按钮来开始和停止录制语音(用于语音识别的 SpeechKit、用于 AI 的 API.AI、用于输出的 Amazon Polly)。

我需要的是让麦克风始终打开,并在用户开始和结束说话时自动开始和停止录制用户的声音。这个应用程序是为非正统的环境开发的,用户将无法访问屏幕(但他们将有一个高端猎枪式麦克风来录制文本)。

我的研究表明,这一难题被称为“语音活动检测”,似乎是整个基于语音的人工智能系统中最困难的步骤之一。

我希望有人可以提供一些简单的(Swift)代码来自己实现这一点,或者为我指明可以在这个项目中实现的一些不错的库/SDK 的方向。

ios swift artificial-intelligence voice-recognition voice-recording
2个回答
2
投票

为了获得良好的 VAD 算法实现,您可以使用 py-webrtcvad

它是 C 代码的 Python 接口,您可以从项目中导入 C 文件并从 swift 中使用它们。


0
投票

米克·伯恩。

这个问题你解决了吗?

我也有同样的问题。如果你解决了,能告诉我概念或解决方案吗?

我要在评论中提出问题,但我不能发表评论,因为我是 StackOverflow 新手。对不起。

© www.soinside.com 2019 - 2024. All rights reserved.