我开发了一个利用 Azure 机器学习端点的应用程序。此端点的输出包括由大型语言模型 (LLM) 生成的答案,该答案通过 Azure OpenAI 端点进行处理。
对于用户交互,我有一个机器人框架解决方案。当机器人收到用户的消息时,它会向机器学习端点发送请求。
但是,我注意到响应时间可能会根据法学硕士的吞吐量而有所不同。为了改进这一点,我正在考虑为这些模型实现实时推理。
在机器学习端点端实现实时推理是否可行?
此外,在机器人框架文档中,我遇到了
Context.UpdateActivityAsync
。这与我在 BotFramework 方面的情况有什么关系吗?
预先感谢您的指导。
由于要求是流式 LLM 部署,您可以在 Azure ML Prompt Flow 中创建启用流式处理的流,并将其部署到端点。 有关流式传输端点和示例的更多详细信息,您可以查看此文档。
为了缩短响应时间,您可以考虑以下方法: