我对无监督学习不是很有经验,但我的一般理解是,在无监督学习中,模型在没有输出的情况下进行学习。然而,在BERT或GPT-3等模型的预训练过程中,在我看来似乎有一个输出。例如,在 BERT 中,输入序列中的一些标记被屏蔽。然后,模型将尝试预测这些单词。由于我们已经知道这些被屏蔽的单词最初是什么,我们可以将其与预测进行比较以找到损失。这基本上不就是监督学习吗?
我还将预训练阶段视为监督训练。正如 Andrej Karpathy 在这个视频中所解释的那样,屏蔽令牌可以用作监督源来更新变压器的权重: