有些法学硕士是直接理解语音，还是必须经过文本转录阶段？

我想通过语音与法学硕士互动。为了选择正确的模型，我想知道是否有直接理解语音的法学硕士。如果没有，我将不得不将用户的声音转录为文本，并将模型的响应转录为音频。

感谢您的帮助。

0
投票

LLM 一般都是文本到文本模型，但也有“多模式”模型（如 chatGPT4、Gemini 1.5 Pro 等）可以接受更多输入方式（如图像、音频、视频等）。对于您的用例，您似乎可以直接使用上述模型之一与音频，或者使用语音到文本（如耳语）作为将文本传递到基于文本的模型之前的预处理步骤。