我正在研究语音识别系统项目。我已经使用深度神经网络来进行语音识别。但是我还需要给定语音中出现的单词的开始和结束时间。您能建议我还是将我引导到解决语音识别中时间戳生成问题的资源?我知道Amazon transcribe服务也可以生成时间戳,但是我无法获得有关此的论文。
[如果您有兴趣尝试使用Microsoft的语音服务(https://aka.ms/speech/sdk),我们也支持单词级时间戳。您可以从我们的快速入门示例之一开始(在许多编程语言中都可用),还可以再添加几行代码来获取字级时序信息。
[基本上,尝试使用默认的microphone quickstart或file quickstart之后,您可以添加几行代码来请求字级时间戳。然后,您将添加另一行代码以检索服务提供的json响应(具有字级计时信息)。
例如,在C#中,您将对SpeechConfig
对象执行此操作:
config.OutputFormat = OutputFormat.Detailed;
config.RequestWordLevelTimestamps = true;
并且一旦收到SpeechRecognitionResult
对象,就可以这样做:
var json = result.Properties.GetProperty(PropertyId.SpeechServiceResponse_JsonResult);
Console.WriteLine(json);
如果您使用的是另一种受支持的编程语言(C ++,Java,JavaScript,Objective-C,Swift,Python等),则代码会略有不同。
祝你好运。>>
Rob Chambers,微软建筑师和工程经理