有些法学硕士是直接理解语音,还是必须经过文本转录阶段?

问题描述 投票:0回答:1

我想通过语音与法学硕士互动。 为了选择正确的模型,我想知道是否有直接理解语音的法学硕士。 如果没有,我将不得不将用户的声音转录为文本,并将模型的响应转录为音频。

感谢您的帮助。

artificial-intelligence voice-recognition large-language-model
1个回答
0
投票

LLM 一般都是文本到文本模型,但也有“多模式”模型(如 chatGPT4、Gemini 1.5 Pro 等)可以接受更多输入方式(如图像、音频、视频等)。 对于您的用例,您似乎可以直接使用上述模型之一与音频,或者使用语音到文本(如耳语)作为将文本传递到基于文本的模型之前的预处理步骤。

© www.soinside.com 2019 - 2024. All rights reserved.