Starcoder 微调 - 如何选择 GPU 以及如何估计微调所需的时间

问题描述投票：0回答：1

我想在我的数据集和 GCP VM 实例上微调 Starcoder (https://huggingface.co/bigcode/starcoder)。

文档中称，为了训练模型，他们使用了 512 个 Tesla A100 GPU，花了 24 天。

我还在huggingFace的文件部分看到了模型（.bin）文件（https://huggingface.co/bigcode/starcoder/tree/main）

模型总大小~64GB

根据所有这些信息，

如何决定哪个 GPU 最适合对我的数据集进行微调？
如何预估finetune需要的时间？（例如基于 epoch=1 等参数的假设）
选择硬件/计算时间还有其他考虑因素吗？

deep-learning pytorch huggingface language-model large-language-model

1个回答

0
投票

1- 选择您能负担得起的最大 GPU，确保它足够新以支持最新的，例如 8 位 llm 量化、闪存注意力... 2 - 从 GPU 获取 FLOPS，估计每个令牌的模型 flops。来自开放缩放定律论文

根据给定的训练数据大小（以令牌为单位）获取所需的总失败次数来估计训练时间，除以 GPU 规格以获得一阶估计，可能会低估给定的数据传输开销、次优利用率...... 3 - 这将非常昂贵。考虑利用开源预训练 llms 进行持续预训练和/或监督微调

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.