为什么我们不能只使用Keys来计算self-attention?

问题描述 投票:0回答:1

我正在阅读有关 self-attention 机制的内容,论文建议需要计算 3 个东西:Key、Query 和 Value。据我了解,具有 Value 的原因是允许根据上下文(这是直观的)调整初始嵌入(在位置编码之后)。但是,我不明白为什么我们需要查询,为什么我们不能仅使用键进行相似度计算?预先感谢。

machine-learning deep-learning nlp artificial-intelligence self-attention
1个回答
0
投票

你必须区分它们,因为它们与它们的权重相关。

由于您有由 Transformer 引入的 3 个不同的权重,因此您将获得 3 个不同版本的输入,因为这 3 个角色通过与相应权重矩阵的矩阵乘法进行加权。

加权表示

另一个原因是维度。由于您必须将 n 个键与 1 个查询进行 n 次比较,因此您将拥有键向量和查询向量作为 1xn 向量(如果您正在进行一些并行化,则为矩阵)。 相反,值向量可能具有不同的维度,通常为 1xv。

© www.soinside.com 2019 - 2024. All rights reserved.