使用 Sagemaker 和 Langchain 部署 LLM

我正在尝试部署使用 Langchain（显然以 LLM 为核心）和 Sagemaker 构建的生成式 AI 解决方案。因此，该代码不仅仅是一个推理脚本，而且是推理管道（挑战在于该代码将使用 LLM）。我怎样才能实现这个目标？另外，我想添加流媒体。

0
投票

通常的架构模式是将LLM与客户端代码（Langchain）分离。 LLM 托管在 SageMaker 端点中，客户端在 EC2、容器或 Lambda 函数中运行。
优点是部署速度更快（您将比 LLM 更频繁地更新应用程序），并且能够单独扩展每个组件。
因此，一种更简单的解决方案是部署 SageMaker Jumpstart（开源或商业）中现有的 LLM 之一，并单独部署应用程序。

如果您有充分的理由需要完全控制 LLM，那么您可以尝试在此 LLAMA2/SageMaker 示例（容器等）上进行构建。

然后，如果您想要完全控制，您可以将其全部构建在您的自定义 docker 之上。

0
投票

LLM 非常庞大，运行时有数百 GB。因此，最好单独部署 LLM（因为我们尝试在 AWS 中工作，所以 sagemaker 端点很有意义），即您的应用程序应该调用此端点并使用预测。现在，sagemaker端点不能是简单的sagemaker端点，因为LLM规模庞大，必须应用模型优化策略，需要硬件和软件之间强大的协同作用。这可以通过使用 Sagemaker 的大型模型推理容器来实现。这些容器运行 DJL 服务 + 模型优化框架 + LLM（此处完整列表 --> https://github.com/aws/deep-learning-containers/blob/master/available_images.md#large-model-inference-containers ）。如果没有优化，就不要部署 LLM。但在走这条路之前，请检查一下 Jumpstart 模型列表和 Bedrock（将为您节省大量时间）。

问题描述投票：0回答：2

2个回答

最新问题

使用 Sagemaker 和 Langchain 部署 LLM

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2