我正在开发使用语音识别的应用程序,以帮助盲人学习音乐。为此,我正在考虑使用诸如DialogFlow.ai或什至Amazon Alexa的名称,以免浪费时间。因此,有时我想使用原始音频数据来检查乐器是否已调音。使用这些技术时,默认情况下,所有音频输入都会被解释并因此转换为文本。因此,有没有办法使用原始音频数据来代替解释用户语音?
出于多种原因(主要是安全性),Amazon Alexa和其他类似技术将不允许您获取用户的原始输入。使用Amazon Alexa作为捕获乐器音频输入的方法不是实现调谐器的可行方法。您应该实现自己的方式来捕获音频,并可能与Alexa / DialogFlow结合使用以进行命令解释。
使用语音识别进行乐器调音似乎不是一个好主意,那是完全不同的事情。最好使用一些现有的库,例如http://gillesdegottex.github.io/fmit/ss.html