我在 llama_cpp Llama 函数中使用 n_gpu_layers 时遇到问题

问题描述投票：0回答：1

我正在尝试将 Zephyr 模型加载到 llama_cpp Llama 中，虽然一切正常，但性能很慢。 GPU 似乎未得到充分利用，尤其是与 LM Studio 中的性能相比，相同数量的 GPU 层会导致输出速度更快，并且 GPU 使用率出现明显峰值。

本质上，我的目标是让终端的性能与 LM Studio 的速度相匹配，但我不确定如何实现这种优化。没有明显的 bug，Llama 的配置如下：

Llama(  "n_gpu_layers": 32,
  "n_threads": 6,
  "verbose": false,
  "model_path": "zephyr-7b-beta.Q4_K_M.gguf",
  "n_ctx": 2048,
  "seed": 0,
  "n_batch": 512,
  "use_mmap": true,
  "use_mlock": false,
  "mul_mat_q": true,
  "low_vram": false,
  "rope_freq_base": 10000.0,
  "tensor_split": null,
  "rope_freq_scale": 1.0)

我也在其中加载历史记录，但仍然看不到gpu的使用情况

large-language-model llama-cpp-python llamacpp

1个回答

0
投票

同样的问题，你找到如何让GPU与你的代码一起运行了吗？

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.