为什么BERT或GPT-3等模型在预训练时有输出（标签）时就被认为是无监督学习

问题描述投票：0回答：1

我对无监督学习不是很有经验，但我的一般理解是，在无监督学习中，模型在没有输出的情况下进行学习。然而，在BERT或GPT-3等模型的预训练过程中，在我看来似乎有一个输出。例如，在 BERT 中，输入序列中的一些标记被屏蔽。然后，模型将尝试预测这些单词。由于我们已经知道这些被屏蔽的单词最初是什么，我们可以将其与预测进行比较以找到损失。这基本上不就是监督学习吗？

machine-learning

bert-language-model

unsupervised-learning

1个回答

0
投票

我还将预训练阶段视为监督训练。正如 Andrej Karpathy 在这个视频中所解释的那样，屏蔽令牌可以用作监督源来更新变压器的权重：

为什么BERT或GPT-3等模型在预训练时有输出（标签）时就被认为是无监督学习

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1