我正在尝试将 Zephyr 模型加载到 llama_cpp Llama 中,虽然一切正常,但性能很慢。 GPU 似乎未得到充分利用,尤其是与 LM Studio 中的性能相比,相同数量的 GPU 层会导致输出速度更快,并且 GPU 使用率出现明显峰值。
本质上,我的目标是让终端的性能与 LM Studio 的速度相匹配,但我不确定如何实现这种优化。没有明显的 bug,Llama 的配置如下:
Llama( "n_gpu_layers": 32,
"n_threads": 6,
"verbose": false,
"model_path": "zephyr-7b-beta.Q4_K_M.gguf",
"n_ctx": 2048,
"seed": 0,
"n_batch": 512,
"use_mmap": true,
"use_mlock": false,
"mul_mat_q": true,
"low_vram": false,
"rope_freq_base": 10000.0,
"tensor_split": null,
"rope_freq_scale": 1.0)
我也在其中加载历史记录,但仍然看不到gpu的使用情况
同样的问题,你找到如何让GPU与你的代码一起运行了吗?