运行 Llama 3 70b 所需的硬件规格

问题描述 投票:0回答:1

我有兴趣在本地运行 Llama 3 70b 模型。我的计划是最终对模型进行微调,以便能够回答一些特定主题的问题。在我的应用程序中,我预计大约 5 个用户能够同时与具有良好性能的模型进行对话。

我的问题是:

  1. 在希望精度损失最小的情况下,要使用的最佳位量化模型是什么。
  2. 假设我想用一百个新提示及其响应来优化模型,该过程通常需要多长时间?
  3. 假设优先考虑更好的推理/训练性能,是否会推荐使用单个 GPU 设备还是多个 GPU 设备。
  4. 什么硬件规格(Ram/处理器/磁盘/GPU)可以实现所需的性能,并且最终也可用于微调。
  5. 推荐什么操作系统/CUDA版本。

谢谢

large-language-model llama ollama
1个回答
0
投票

70b 型号使用大约 140GB RAM(每个参数是 2 字节浮点数)。如果你想完全精确地运行,我认为你可以使用 llama.cpp 和具有 192GB 统一内存的 Mac 来完成,尽管速度不会那么快(可能每秒几个令牌)。如果您使用 8 位量化运行,RAM 要求会下降一半,速度也会提高。

有人说最好的成本效益是构建一台配备 2 个 RTX 3090 的 PC,它为您提供 48GB VRAM,但运行 4 位量化版本时速度非常好。

我认为对消费类硬件进行微调是不可行的,您可能需要在云提供商处租用几个 A100。

© www.soinside.com 2019 - 2024. All rights reserved.