如何理解 Transformer 中的上下文嵌入？

Question

如，变压器的输入本质上是一系列标记，每个标记都表示为单热向量。随后将这些向量乘以嵌入矩阵 (E) 以生成输入嵌入 (X)。该嵌入矩阵是训练过程中学习到的参数。用数学术语来说，这个过程可以表示为 X = E * I，其中 I 代表输入 one-hot 向量。

因此，如果嵌入层只是充当查找表来获取每个标记的学习向量表示，那么单词

left

的嵌入如何在下面句子的嵌入空间中具有两种不同的表示？

“我左把手机放在桌子的左边。”

Answer 1

我不知道以下答案是否100%正确，期待社区确认是否正确。（将此答案标记为“社区wiki”）

它的位置编码可以区分两次出现，从而有效地在嵌入空间中创建两种不同的表示。此外，由于注意力机制，在处理第一个“左”时，模型可能会更多地关注“电话”和“动作”等单词，而对于第二个“左”，它可能会关注“边”和“桌子” 。这种动态注意力根据周围环境有效地为同一个单词创建不同的上下文表示。

因此，虽然嵌入层本身可能只是一个查找表，但位置编码和注意力机制的组合允许单个句子中单词表示的上下文变化。这使得模型能够根据单词的具体用法捕获单词的微妙含义。