我在 llama_cpp Llama 函数中使用 n_gpu_layers 时遇到问题

问题描述 投票:0回答:1

我正在尝试将 Zephyr 模型加载到 llama_cpp Llama 中,虽然一切正常,但性能很慢。 GPU 似乎未得到充分利用,尤其是与 LM Studio 中的性能相比,相同数量的 GPU 层会导致输出速度更快,并且 GPU 使用率出现明显峰值。

本质上,我的目标是让终端的性能与 LM Studio 的速度相匹配,但我不确定如何实现这种优化。没有明显的 bug,Llama 的配置如下:

Llama(  "n_gpu_layers": 32,
  "n_threads": 6,
  "verbose": false,
  "model_path": "zephyr-7b-beta.Q4_K_M.gguf",
  "n_ctx": 2048,
  "seed": 0,
  "n_batch": 512,
  "use_mmap": true,
  "use_mlock": false,
  "mul_mat_q": true,
  "low_vram": false,
  "rope_freq_base": 10000.0,
  "tensor_split": null,
  "rope_freq_scale": 1.0)

我也在其中加载历史记录,但仍然看不到gpu的使用情况

large-language-model llama-cpp-python llamacpp
1个回答
0
投票

同样的问题,你找到如何让GPU与你的代码一起运行了吗?

© www.soinside.com 2019 - 2024. All rights reserved.