在我的iOS应用程序中,我正在尝试使用iOS 10的最新功能Speech API转录预先录制的音频。
包括documentation在内的多个来源都表示Speech API(更具体地说是SFSpeechRecognizer)的音频持续时间限制为1分钟。
在我的代码中,我发现任何长度约为15秒或更长的音频文件都会出现以下错误。
Error Domain = kAFAssistantErrorDomain Code = 203“SessionId = com.siri.cortex.ace.speech.session.event.SpeechSessionId@50a8e246,Message = 30000 ms后等待命令超时”UserInfo = {NSLocalizedDescription = SessionId = com.siri.cortex .ace.speech.session.event.SpeechSessionId @ 50a8e246,Message = 30000 ms后等待命令的超时,NSUnderlyingError = 0x170248c40 {Error Domain = SiriSpeechErrorDomain Code = 100“(null)”}}
我在互联网上搜索过,但未能找到解决方法。也有人有同样的问题。有些人怀疑这是Nuance的一个问题。
值得注意的是,我确实得到了转录过程的部分结果。
这是我的iOS应用程序的代码。 `//创建一个语音识别器请求对象。 let srRequest = SFSpeechURLRecognitionRequest(url:location)srRequest.shouldReportPartialResults = false
sr?.recognitionTask(with: srRequest) { (result, error) in
if let error = error {
// Something wrong happened
print(error.localizedDescription)
} else {
if let result = result {
print(4)
print(result.bestTranscription.formattedString)
if result.isFinal {
print(5)
transcript = result.bestTranscription.formattedString
print(result.bestTranscription.formattedString)
// Store the transcript into the database.
print("\nSiri-Transcript: " + transcript!)
// Store the audio transcript into Firebase Realtime Database
self.firebaseRef = FIRDatabase.database().reference()
let ud = UserDefaults.standard
if let uid = ud.string(forKey: "uid") {
print("Storing the transcript into the database.")
let path = "users" + "/" + uid + "/" + "siri_transcripts" + "/" + date_recorded + "/" + filename.components(separatedBy: ".")[0]
print("transcript database path: \(path)")
self.firebaseRef.child(path).setValue(transcript)
}
}
}
}
}`
谢谢您的帮助。
除了遇到同样问题的其他人之外,我还没有确认我的答案,但我认为这是对预先录制的音频的无证限制。
删除result.isFinal并对结果执行null检查。参考:https://github.com/mssodhi/Jarvis-ios/blob/master/Jarvis-ios/HomeCell%2Bspeech.swift
这是真的,我从视频中提取了音频文件,如果超过15秒,则会出现以下错误:
Domain = kAFAssistantErrorDomain Code = 203 "Timeout" UserInfo = {
NSLocalizedDescription = Timeout,
NSUnderlyingError = 0x1c0647950 {Error Domain=SiriSpeechErrorDomain Code=100 "(null)"}
}
关键问题是超过15秒后的音频文件识别。 result.isFinal
总是0
,这是非常令人沮丧的是没有准确的时间戳,虽然它是“Timeout”,它有完整的识别内容,这让我觉得很奇怪。
如果打印出结果遍历,您可以看到有一些限制,即15秒,但原因是音频文件的时间戳反馈限制为有限的数字,例如15或4或9,领先到最后。超时反馈更不稳定。
但在实时语音识别中,您可以在一分钟内突破15秒,如官方文档中所述。