运行 Llama 3 70b 所需的硬件规格

问题描述投票：0回答：1

我有兴趣在本地运行 Llama 3 70b 模型。我的计划是最终对模型进行微调，以便能够回答一些特定主题的问题。在我的应用程序中，我预计大约 5 个用户能够同时与具有良好性能的模型进行对话。

我的问题是：

谢谢

large-language-model

llama

ollama

1个回答

0
投票

70b 型号使用大约 140GB RAM（每个参数是 2 字节浮点数）。如果你想完全精确地运行，我认为你可以使用 llama.cpp 和具有 192GB 统一内存的 Mac 来完成，尽管速度不会那么快（可能每秒几个令牌）。如果您使用 8 位量化运行，RAM 要求会下降一半，速度也会提高。

有人说最好的成本效益是构建一台配备 2 个 RTX 3090 的 PC，它为您提供 48GB VRAM，但运行 4 位量化版本时速度非常好。

我认为对消费类硬件进行微调是不可行的，您可能需要在云提供商处租用几个 A100。