我想通过语音与法学硕士互动。 为了选择正确的模型,我想知道是否有直接理解语音的法学硕士。 如果没有,我将不得不将用户的声音转录为文本,并将模型的响应转录为音频。
感谢您的帮助。
LLM 一般都是文本到文本模型,但也有“多模式”模型(如 chatGPT4、Gemini 1.5 Pro 等)可以接受更多输入方式(如图像、音频、视频等)。 对于您的用例,您似乎可以直接使用上述模型之一与音频,或者使用语音到文本(如耳语)作为将文本传递到基于文本的模型之前的预处理步骤。