Azure 机器学习端点 LLM 实时推理(流式传输)以更新 Bot 框架

问题描述 投票:0回答:1

我开发了一个利用 Azure 机器学习端点的应用程序。此端点的输出包括由大型语言模型 (LLM) 生成的答案,该答案通过 Azure OpenAI 端点进行处理。

对于用户交互,我有一个机器人框架解决方案。当机器人收到用户的消息时,它会向机器学习端点发送请求。

但是,我注意到响应时间可能会根据法学硕士的吞吐量而有所不同。为了改进这一点,我正在考虑为这些模型实现实时推理。

在机器学习端点端实现实时推理是否可行?

此外,在机器人框架文档中,我遇到了

Context.UpdateActivityAsync
。这与我在 BotFramework 方面的情况有什么关系吗?

预先感谢您的指导。

azure botframework azure-machine-learning-service azure-openai
1个回答
0
投票

由于要求是流式 LLM 部署,您可以在 Azure ML Prompt Flow 中创建启用流式处理的流,并将其部署到端点。 有关流式传输端点和示例的更多详细信息,您可以查看此文档

为了缩短响应时间,您可以考虑以下方法:

  1. 通过增加部署配置中的实例或节点来扩展 Azure ML 端点,从而允许并行请求处理和更快的响应时间。
  2. 根据您的用例微调大型语言模型,这可能会缩短响应时间。
© www.soinside.com 2019 - 2024. All rights reserved.