注意力中的掩码是否与位置编码执行相同的工作？

问题描述投票：0回答：1

我是变压器解码器的新手，对注意力掩码感到困惑。它似乎掩盖了某个特定单词之前的所有单词。如果这就是它的作用，那么它是否使网络具有位置感知能力，从而不再需要位置编码？

因为我们假设没有位置编码器。考虑输入“我很好”和“我好吗”。假设经过第一个解码器的处理后，“I”将变成向量x，“am”将变成y，“good”将变成z。这两个输入序列的 z 将完全相同。但是，由于解码器中的掩码，x 和 y 将完全不同。那么当x、y、z作为第二个解码器的输入时，这两个序列之间z的输出将不同，因为x和y不同。所以整个网络实际上是位置感知的。

我错过了什么吗？

我尝试阅读论文，但还没有弄清楚，谢谢您的帮助。

nlp

transformer-model

gpt-2

1个回答

0
投票

Transformer 中引入了位置编码，以提供有关输入序列中标记位置的信息。由于 Transformer 并行处理输入，因此它缺乏对令牌顺序的固有了解。位置编码有助于模型理解不同位置之间的顺序关系。

Transformer 解码器中的注意力掩码确保在自注意力机制期间，每个位置只能关注序列中位于其之前的位置。这对于在训练期间保持自回归特性至关重要。如果没有掩模，模型将能够访问未来位置的信息，这将导致数据泄漏和错误的训练。

注意力中的掩码是否与位置编码执行相同的工作？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1