我有兴趣在本地运行 Llama 3 70b 模型。我的计划是最终对模型进行微调,以便能够回答一些特定主题的问题。在我的应用程序中,我预计大约 5 个用户能够同时与具有良好性能的模型进行对话。
我的问题是:
谢谢
70b 型号使用大约 140GB RAM(每个参数是 2 字节浮点数)。如果你想完全精确地运行,我认为你可以使用 llama.cpp 和具有 192GB 统一内存的 Mac 来完成,尽管速度不会那么快(可能每秒几个令牌)。如果您使用 8 位量化运行,RAM 要求会下降一半,速度也会提高。
有人说最好的成本效益是构建一台配备 2 个 RTX 3090 的 PC,它为您提供 48GB VRAM,但运行 4 位量化版本时速度非常好。
我认为对消费类硬件进行微调是不可行的,您可能需要在云提供商处租用几个 A100。