为什么我们不能只使用Keys来计算self-attention？

Question

我正在阅读有关 self-attention 机制的内容，论文建议需要计算 3 个东西：Key、Query 和 Value。据我了解，具有 Value 的原因是允许根据上下文（这是直观的）调整初始嵌入（在位置编码之后）。但是，我不明白为什么我们需要查询，为什么我们不能仅使用键进行相似度计算？预先感谢。

Answer 1

你必须区分它们，因为它们与它们的权重相关。

由于您有由 Transformer 引入的 3 个不同的权重，因此您将获得 3 个不同版本的输入，因为这 3 个角色通过与相应权重矩阵的矩阵乘法进行加权。

加权表示

另一个原因是维度。由于您必须将 n 个键与 1 个查询进行 n 次比较，因此您将拥有键向量和查询向量作为 1xn 向量（如果您正在进行一些并行化，则为矩阵）。相反，值向量可能具有不同的维度，通常为 1xv。

为什么我们不能只使用Keys来计算self-attention？

问题描述投票：0回答：1

1个回答

最新问题

为什么我们不能只使用Keys来计算self-attention？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1