我正在尝试通过real-time
认知服务在麦克风上转录两个人的Azure's SpeechToText
对话。问题是,认知服务样本中的哪种情况最适合该情景(我假设对于此情景speech_recognize_continuous
样本,但我并未仅从文件中找到麦克风的这种情况),并且是否有可能拆分语音结果每个演讲者。
此演示的结果应如下所示:
Person 1:
Person 2:
Person 1:
Person 1:
....
Speech_recognition_language =“ de-DE”
在Windows操作系统上显示此对话的最佳方法是什么?
要做您想做的事,您必须为每个麦克风运行一个这样的程序,然后每个程序都必须将文本报告到中央位置以打印出对话。