Sagemaker AWS llama2 端点推理

Question

我正在 AWS sagemaker 上调用 Jumpstart-llama2-foundational-model 的推理端点，但它给出了以下错误：

推理端点引发错误：调用 InvokeEndpoint 操作时发生错误 (ModelError)：从主节点收到客户端错误 (424)，消息为“{ “代码”：424， "message":"预测失败", “错误”：“分配大于预期：标签'rms_qkv'，请求的大小：164831232，预期的最大大小：'100663296'” }“

我的代码片段如下：

llm = SagemakerEndpoint(
                        endpoint_name=endpoint_name, 
                        region_name=region, 
                        model_kwargs={"max_new_tokens": 2048, "top_p": 0.9, "temperature": 0.1},
                        endpoint_kwargs={"CustomAttributes": 'accept_eula=true'},
                        content_handler=content_handler
                )
prompt_template = PromptTemplate(input_variables=["chat_history", "human_input", "context"], template=Chat_llama().get_template())
                chain = load_qa_chain(llm, chain_type="stuff",memory=st.session_state['memory'], prompt=prompt_template)
            
chain({"input_documents": docs, "human_input": prompt}, return_only_outputs=True)
response=chain.memory.buffer

有人能指出我正确的方向吗？

Answer 1

从错误日志来看，输入文本似乎太大，您可以尝试截断它，看看是否遇到相同的错误，以便我们可以查明问题所在？您在自定义推理脚本中是否还做了任何会增加有效负载大小的事情？

Sagemaker AWS llama2 端点推理

问题描述投票：0回答：1

1个回答

最新问题

Sagemaker AWS llama2 端点推理

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1