是否有可能对像 Roberta 这样的小得多的语言模型(例如客户服务数据集)进行微调,并获得与使用部分数据集提示 GPT-4 所获得的结果一样好的结果?
经过微调的 Roberta 模型能否学会以对话方式遵循指令,至少对于这样的小领域?
有什么论文或文章可以实证探讨这个问题吗?
我发现了一篇中等的文章,它对澄清这一点有很大帮助这里。
引用上面的结论,
在低数据域中,提示显示出优于 各自的微调方法。击败 SOTA 基准 微调,结合利用大型冻结语言模型 通过调整软提示似乎是前进的方向。
如果训练数据很小,这似乎提示法学硕士可能在特定领域任务上优于微调较小的模型,否则反之亦然。
此外,根据我个人使用 ChatGPT、Bard、Bing、Vicuna-3b、Dolly-v2-12b 和 Illama-13b 的轶事经验,ChatGPT、Bard 和 Bing 大小的模型似乎已经学会模仿人类对语言的理解足够好,能够从推理时提供的上下文中提取有意义的答案。在我看来,较小的模型不具备“模仿能力”,并且在推理时的上下文学习中可能表现不佳。它们也可能太大,不适合在非常有限的领域进行微调。我的预感是,对于非常有限的领域,如果要走微调路线,可以在更小的模型上进行微调,例如 BERT 或 Roberta(或者 GPT-2 或 GPT-J 的较小变体,用于生成任务),而不是在这些中型模型在资源方面可能是更谨慎的方法。 在领域数据上微调较小模型的另一种方法可能是对中型模型使用更仔细、更严格的提示。这可能是使用大型专有模型所有者提供的 API 的可行替代方案。