注意模型中的反向传播

问题描述 投票:0回答:1

我试图通过比例点产品注意模型弄清楚如何进行反向传播。缩放的点生成注意力将Q(查询),K(键),V(值)作为输入并执行以下操作:

注意(Q,K,V)= softmax((Q.transpose(K))/√dk)V

这里√dk是比例因子,是一个常数。

这里Q,K和V是张量。我现在假设Q = K = V.所以我将公式(softmax((Q.transpose(Q)))Q与Q区分开来。我认为答案是:

softmax((Q.transpose(Q)))+ Q.derivativeOfSoftmax((Q.transpose(Q)))。(2 *转置(Q))

因为我认为Q.transpose(Q)wrt Q的导数是2 * Q.transpose(Q)。

考虑到张量演算的规则,这是正确的方法吗?如果不善意告诉我如何继续。

在给定的论文中可以参考比例点产品注意的概念:https://arxiv.org/pdf/1706.03762.pdf

backpropagation tensor attention-model
1个回答
0
投票

我不确定张量微积分是否合适。

选择矢量的特定索引,比如索引j。然后区分该变量。对索引1,2,3等执行此操作,您将看到一个模式。让我举一个乘法的例子。有两种类型的乘法与矩阵,矩阵乘法和hadamard乘积。 hadamard产品是一种直观的方法,您可以在元素方面将两个相同的维矩阵相乘。以类似的方式,您应该区分softmax函数“元素方式”。

© www.soinside.com 2019 - 2024. All rights reserved.