Azure 机器学习端点 LLM 实时推理（流式传输）以更新 Bot 框架

Question

我开发了一个利用 Azure 机器学习端点的应用程序。此端点的输出包括由大型语言模型 (LLM) 生成的答案，该答案通过 Azure OpenAI 端点进行处理。

对于用户交互，我有一个机器人框架解决方案。当机器人收到用户的消息时，它会向机器学习端点发送请求。

但是，我注意到响应时间可能会根据法学硕士的吞吐量而有所不同。为了改进这一点，我正在考虑为这些模型实现实时推理。

在机器学习端点端实现实时推理是否可行？

此外，在机器人框架文档中，我遇到了

Context.UpdateActivityAsync

。这与我在 BotFramework 方面的情况有什么关系吗？

预先感谢您的指导。

Answer 1

由于要求是流式 LLM 部署，您可以在 Azure ML Prompt Flow 中创建启用流式处理的流，并将其部署到端点。有关流式传输端点和示例的更多详细信息，您可以查看此文档。

为了缩短响应时间，您可以考虑以下方法：