注意模型中的反向传播

注意模型中的反向传播

问题描述投票：0回答：1

我试图通过比例点产品注意模型弄清楚如何进行反向传播。缩放的点生成注意力将Q（查询），K（键），V（值）作为输入并执行以下操作：

注意（Q，K，V）= softmax（（Q.transpose（K））/√dk）V

这里√dk是比例因子，是一个常数。

这里Q，K和V是张量。我现在假设Q = K = V.所以我将公式（softmax（（Q.transpose（Q）））Q与Q区分开来。我认为答案是：

softmax（（Q.transpose（Q）））+ Q.derivativeOfSoftmax（（Q.transpose（Q）））。（2 *转置（Q））

因为我认为Q.transpose（Q）wrt Q的导数是2 * Q.transpose（Q）。

考虑到张量演算的规则，这是正确的方法吗？如果不善意告诉我如何继续。

在给定的论文中可以参考比例点产品注意的概念：https://arxiv.org/pdf/1706.03762.pdf

backpropagation

tensor

attention-model

1个回答

0
投票

我不确定张量微积分是否合适。

选择矢量的特定索引，比如索引j。然后区分该变量。对索引1,2,3等执行此操作，您将看到一个模式。让我举一个乘法的例子。有两种类型的乘法与矩阵，矩阵乘法和hadamard乘积。 hadamard产品是一种直观的方法，您可以在元素方面将两个相同的维矩阵相乘。以类似的方式，您应该区分softmax函数“元素方式”。

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1