使用 Sagemaker 和 Langchain 部署 LLM

问题描述 投票:0回答:2

我正在尝试部署使用 Langchain(显然以 LLM 为核心)和 Sagemaker 构建的生成式 AI 解决方案。因此,该代码不仅仅是一个推理脚本,而且是推理管道(挑战在于该代码将使用 LLM)。我怎样才能实现这个目标?另外,我想添加流媒体。

streaming amazon-sagemaker endpoint large-language-model generative
2个回答
0
投票

通常的架构模式是将LLM与客户端代码(Langchain)分离。 LLM 托管在 SageMaker 端点中,客户端在 EC2、容器或 Lambda 函数中运行。
优点是部署速度更快(您将比 LLM 更频繁地更新应用程序),并且能够单独扩展每个组件。
因此,一种更简单的解决方案是部署 SageMaker Jumpstart(开源或商业)中现有的 LLM 之一,并单独部署应用程序。

如果您有充分的理由需要完全控制 LLM,那么您可以尝试在 此 LLAMA2/SageMaker 示例(容器等)上进行构建。

然后,如果您想要完全控制,您可以 将其全部构建在您的自定义 docker 之上


0
投票

LLM 非常庞大,运行时有数百 GB。因此,最好单独部署 LLM(因为我们尝试在 AWS 中工作,所以 sagemaker 端点很有意义),即您的应用程序应该调用此端点并使用预测。现在,sagemaker端点不能是简单的sagemaker端点,因为LLM规模庞大,必须应用模型优化策略,需要硬件和软件之间强大的协同作用。这可以通过使用 Sagemaker 的大型模型推理容器来实现。这些容器运行 DJL 服务 + 模型优化框架 + LLM(此处完整列表 --> https://github.com/aws/deep-learning-containers/blob/master/available_images.md#large-model-inference-containers )。如果没有优化,就不要部署 LLM。但在走这条路之前,请检查一下 Jumpstart 模型列表和 Bedrock(将为您节省大量时间)。

© www.soinside.com 2019 - 2024. All rights reserved.