注意力中的掩码是否与位置编码执行相同的工作?

问题描述 投票:0回答:1

我是变压器解码器的新手,对注意力掩码感到困惑。它似乎掩盖了某个特定单词之前的所有单词。如果这就是它的作用,那么它是否使网络具有位置感知能力,从而不再需要位置编码?

因为我们假设没有位置编码器。考虑输入“我很好”和“我好吗”。假设经过第一个解码器的处理后,“I”将变成向量x,“am”将变成y,“good”将变成z。这两个输入序列的 z 将完全相同。但是,由于解码器中的掩码,x 和 y 将完全不同。那么当x、y、z作为第二个解码器的输入时,这两个序列之间z的输出将不同,因为x和y不同。所以整个网络实际上是位置感知的。

我错过了什么吗?

我尝试阅读论文,但还没有弄清楚,谢谢您的帮助。

nlp transformer-model gpt-2
1个回答
0
投票

Transformer 中引入了位置编码,以提供有关输入序列中标记位置的信息。由于 Transformer 并行处理输入,因此它缺乏对令牌顺序的固有了解。位置编码有助于模型理解不同位置之间的顺序关系。

Transformer 解码器中的注意力掩码确保在自注意力机制期间,每个位置只能关注序列中位于其之前的位置。这对于在训练期间保持自回归特性至关重要。如果没有掩模,模型将能够访问未来位置的信息,这将导致数据泄漏和错误的训练。

© www.soinside.com 2019 - 2024. All rights reserved.