如何在 Meta-Llama-3-8b 模型中减少推理时间并限制附加信息生成?

问题描述 投票:0回答:1

我已使用 Xinference 在我的服务器上部署了 Meta-Llama-3-8b 模型。一切都运行良好,但是即使对于简单的提示,推理时间也约为 16 秒,而且它还会生成不需要的额外信息(垃圾)。我希望在这方面获得一些关于如何减少推理并避免生成额外信息的帮助。我已经三次检查了我的硬件的兼容性,模型可以顺利运行。我相信配置文件中一定有一些我必须更改的内容,但不知道该怎么做。如果有人有解决这个问题的方法,请告诉我。

我尝试过更改提示,并引导模型不生成额外信息,但根本不起作用。我期望模型能够快速响应并仅生成所需的信息,而不是生成额外的信息。

如果有人遇到这样的问题,请尽快告诉我。谢谢!

large-language-model llama inference-engine text-generation
1个回答
0
投票

试试这个https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/

你也可以尝试 hf tgi

采用高内存带宽的GPU

© www.soinside.com 2019 - 2024. All rights reserved.