所以,虽然它仍然是一个有点让我震惊,谷歌的默认语音识别完全和完全忽略了音乐/环境噪声。问题是,我使用的情况下,我希望它实际尝试录制音乐!
我使用的网络语音API在Chrome 72,他们有演示。
大家很奇怪,我希望它录制正在播放的人讲的同一页上没有背景音乐的视频。我使用他们的演示代码,看看这是否是可行的。
有没有什么办法来识别这些声音?
为了澄清,我问具体怎么一般禁用此为Web语音API而不是语音识别。
网络语音API是从浏览器本身的要求语音识别的一个非常具体的方法(在Chrome它去谷歌,在Firefox我相信他们有一个本地的解决方案)。
有一个关于在这里更多的信息:https://developer.mozilla.org/en-US/docs/Web/API/Web_Speech_API但因为它跨浏览器的变化缺乏文档和我特别要求避免这种情况在Chrome中。
需要注意的是webkitSpeechRecognition
记录音频输入麦克风和数据发送到远程服务。执行语音识别的实际代码不附带铬源代码(Chrome正在从建)。
W3C的语音API规范不提供一个默认的手段来处理环境噪声/音乐。在铬/ Chrome浏览器,开发人员可以如何捕获的音频被远程服务处理或成绩单从远程服务返回的控制。该用户的生物特征数据被记录和发送到远程服务的事实未记录至少一个铬bug报告外标WON'T FIX
,并在GitHub上提交的问题。
你可能会感兴趣的开源项目Tensorflow和CMU掌上狮身人面像,在那里你可以创建自己的模型。 Mozilla的语音网络包含可用于培训TTS / STT车型数据的大量。