每次针对同一音频文件,Google语音API输出都会更改。有没有办法获得相同的输出或修复转录者使用的模型?
您可能正在使用“默认”模型。这是音频的推荐。但我发现(我并不孤单)它并不那么棒。你最好使用“视频”模型(它是增强模型之一,需要数据记录)。我建议您尝试视频模型,即使您只是录制音频。
此外,如果您要转录的文件中有共同主题,请尝试向API提供一些常用短语。当你这样做时,结果会有很大改善并且有点稳定。 (参考:SpeechContext)