查询：在自定义库上训练LLM以生成代码？

问题描述投票：0回答：1

我想使用具有大量功能的自定义库来培训法学硕士。目的是能够在给定在此自定义库上训练的法学硕士的情况下生成代码。由于该库非常巨大，当我将其添加到 LLM 上下文时，我用完了令牌（我使用的是 gpt-4-32k）。

code-generation

llm

1个回答

0
投票

如果您希望实现高质量的生成，而又不想花费数百万美元来微调模型，请考虑使用 PEFT（参数高效微调）。

PEFT 是 Hugging Face 的开源库，可以对预训练的语言模型 (PLM) 进行微调，而无需修改模型的所有参数。 PEFT 目前包括 QLoRA、LoRa、P-Tuning 等技术

让我们了解有关 PEFT 和 QLoRA 的更多详细信息：

PEFT 或参数高效微调（来自 Hugging Face）是一个开源库，可帮助您微调预训练的语言模型 (PLM)，而无需修改模型的所有参数。

另一方面，QLoRA 是一种高效的微调技术，它首先将 PLM 量化为 4 位（量化）并附加“低阶适配器”（LoRA、PEFT）。这使您能够在单个 GPU 上微调具有数百亿个参数的模型。

通过集成这些技术，您可以更高效、更有效地微调大型模型，从而充分利用您的计算资源。

我不确定您的批量大小，但您甚至可以在您的设备上轻松运行经过微调的 LLM。您可以进行推测采样来提高代币生成速度，同时仍将生成质量保持在 SOTA 水平。

为了提高生成质量，你甚至可以进行强化学习。您可以首先提供代码中的一个块，并要求完成，然后反向传播来调整权重。