我正在编写与语音相关的项目。我正在开发一种功能,以实时区分语音中的人声。我使用Microsoft Azure扬声器识别API来区分人们的声音。
根据API指南,我必须上传WAV文件以接收音频并区分语音中的用户。但是,我需要使用实时音频流来区分用户语音。
所以我的问题是:如何使用实时音频流来实现说话者识别?
当前版本的API(1.0)不支持音频流,但是2.0版将支持此功能,该版本应在几个月内(2020年夏季)可用。