我想在我的数据集和 GCP VM 实例上微调 Starcoder (https://huggingface.co/bigcode/starcoder)。
文档中称,为了训练模型,他们使用了 512 个 Tesla A100 GPU,花了 24 天。
我还在huggingFace的文件部分看到了模型(.bin)文件(https://huggingface.co/bigcode/starcoder/tree/main)
模型总大小~64GB
根据所有这些信息,
1- 选择您能负担得起的最大 GPU,确保它足够新以支持最新的,例如 8 位 llm 量化、闪存注意力... 2 - 从 GPU 获取 FLOPS,估计每个令牌的模型 flops。 来自开放缩放定律论文
根据给定的训练数据大小(以令牌为单位)获取所需的总失败次数来估计训练时间,除以 GPU 规格以获得一阶估计,可能会低估给定的数据传输开销、次优利用率...... 3 - 这将非常昂贵。考虑利用开源预训练 llms 进行持续预训练和/或监督微调