Starcoder 微调 - 如何选择 GPU 以及如何估计微调所需的时间

问题描述 投票:0回答:1

我想在我的数据集和 GCP VM 实例上微调 Starcoder (https://huggingface.co/bigcode/starcoder)。

文档中称,为了训练模型,他们使用了 512 个 Tesla A100 GPU,花了 24 天。

我还在huggingFace的文件部分看到了模型(.bin)文件(https://huggingface.co/bigcode/starcoder/tree/main

模型总大小~64GB

根据所有这些信息,

  1. 如何决定哪个 GPU 最适合对我的数据集进行微调?
  2. 如何预估finetune需要的时间? (例如基于 epoch=1 等参数的假设)
  3. 选择硬件/计算时间还有其他考虑因素吗?
deep-learning pytorch huggingface language-model large-language-model
1个回答
0
投票

1- 选择您能负担得起的最大 GPU,确保它足够新以支持最新的,例如 8 位 llm 量化、闪存注意力... 2 - 从 GPU 获取 FLOPS,估计每个令牌的模型 flops。 来自开放缩放定律论文

根据给定的训练数据大小(以令牌为单位)获取所需的总失败次数来估计训练时间,除以 GPU 规格以获得一阶估计,可能会低估给定的数据传输开销、次优利用率...... 3 - 这将非常昂贵。考虑利用开源预训练 llms 进行持续预训练和/或监督微调

© www.soinside.com 2019 - 2024. All rights reserved.