我正在开发一种工具,可以自动加入 Google Meet 会话、录制音频并生成实时笔记,以了解谁在发言。该工具应该能够识别说话者并将他们所说的话准确地与他们的名字联系起来。
是否有官方的 Google API 可用于此目的,或者是否有任何其他推荐的方法来实现此功能?
我尝试使用 Google Cloud Speech-to-Text 实现此功能,但我发现该服务需要预先录制会议才能转录音频。此外,由于我们无法获得实际的说话人姓名,因此使用此服务识别说话人的准确性并不令人满意。 我试图取消 google meet 字幕,但它似乎不是一个可靠的解决方案。 我想要它像 webkitSpeechRecognition 一样,但带有说话者的识别。