Sagemaker AWS llama2 端点推理

问题描述 投票:0回答:1

我正在 AWS sagemaker 上调用 Jumpstart-llama2-foundational-model 的推理端点,但它给出了以下错误:

推理端点引发错误:调用 InvokeEndpoint 操作时发生错误 (ModelError):从主节点收到客户端错误 (424),消息为“{ “代码”:424, "message":"预测失败", “错误”:“分配大于预期:标签'rms_qkv',请求的大小:164831232,预期的最大大小:'100663296'” }“

我的代码片段如下:

llm = SagemakerEndpoint(
                        endpoint_name=endpoint_name, 
                        region_name=region, 
                        model_kwargs={"max_new_tokens": 2048, "top_p": 0.9, "temperature": 0.1},
                        endpoint_kwargs={"CustomAttributes": 'accept_eula=true'},
                        content_handler=content_handler
                )
prompt_template = PromptTemplate(input_variables=["chat_history", "human_input", "context"], template=Chat_llama().get_template())
                chain = load_qa_chain(llm, chain_type="stuff",memory=st.session_state['memory'], prompt=prompt_template)
            
chain({"input_documents": docs, "human_input": prompt}, return_only_outputs=True)
response=chain.memory.buffer

有人能指出我正确的方向吗?

amazon-sagemaker llm llama
1个回答
0
投票

从错误日志来看,输入文本似乎太大,您可以尝试截断它,看看是否遇到相同的错误,以便我们可以查明问题所在?您在自定义推理脚本中是否还做了任何会增加有效负载大小的事情?

© www.soinside.com 2019 - 2024. All rights reserved.