参数retain_graph在Variable的backward（）方法中意味着什么？

Question

我正在浏览neural transfer pytorch tutorial，并对使用retain_variable感到困惑（弃用，现在称为retain_graph）。代码示例显示：

class ContentLoss(nn.Module):

    def __init__(self, target, weight):
        super(ContentLoss, self).__init__()
        self.target = target.detach() * weight
        self.weight = weight
        self.criterion = nn.MSELoss()

    def forward(self, input):
        self.loss = self.criterion(input * self.weight, self.target)
        self.output = input
        return self.output

    def backward(self, retain_variables=True):
        #Why is retain_variables True??
        self.loss.backward(retain_variables=retain_variables)
        return self.loss

来自the documentation

retain_graph（bool，optional） - 如果为False，将释放用于计算grad的图形。请注意，几乎在所有情况下都不需要将此选项设置为True，并且通常可以以更有效的方式解决此问题。默认为create_graph的值。

因此，通过设置retain_graph= True，我们不会释放在向后传递上为图形分配的内存。保持这种记忆的优势是什么，我们为什么需要它？

Answer 1

@cleros非常关注使用retain_graph=True。从本质上讲，它将保留任何必要的信息来计算某个变量，这样我们就可以向后传递它。

一个说明性的例子

假设我们有一个如上所示的计算图。变量d和e是输出，a是输入。例如，

import torch
from torch.autograd import Variable
a = Variable(torch.rand(1, 4), requires_grad=True)
b = a**2
c = b*2
d = c.mean()
e = c.sum()

当我们做d.backward()，那很好。在此计算之后，默认情况下将释放计算d的图形部分以节省内存。因此，如果我们执行e.backward()，将弹出错误消息。为了做e.backward()，我们必须在retain_graph中将参数True设置为d.backward()，即

d.backward(retain_graph=True)

只要在后向方法中使用retain_graph=True，就可以随时向后执行：

d.backward(retain_graph=True) # fine
e.backward(retain_graph=True) # fine
d.backward() # also fine
e.backward() # error will occur!

更有用的讨论可以找到here。

一个真实的用例

现在，一个真正的用例是多任务学习，你可能有多个损失，可能在不同的层。假设您有2个损失：loss1和loss2，它们位于不同的层。为了将loss1和loss2 w.r.t的梯度反向支持你网络的可学习权重。在第一次反向传播的损失中，你必须在retain_graph=True方法中使用backward()。

# suppose you first back-propagate loss1, then loss2 (you can also do the reverse)
loss1.backward(retain_graph=True)
loss2.backward() # now the graph is freed, and next process of batch gradient descent is ready
optimizer.step() # update the network parameters

Answer 2

当您有多个网络输出时，这是一个非常有用的功能。这是一个完全构成的例子：假设您想要构建一些随机卷积网络，您可以问两个问题：输入图像是否包含猫，图像是否包含汽车？

这样做的一种方法是拥有一个共享卷积层的网络，但是后面有两个平行的分类层（原谅我可怕的ASCII图，但这应该是三个轮换层，接着是三个完全连接的层，一个用于猫和一个汽车）：

                    -- FC - FC - FC - cat?
Conv - Conv - Conv -|
                    -- FC - FC - FC - car?

鉴于我们想要在两个分支上运行的图片，在培训网络时，我们可以通过多种方式实现这一目标。首先（这可能是最好的事情，说明示例有多糟糕），我们只是计算两次评估的损失并总结损失，然后反向传播。

但是，还有另一种情况 - 我们希望按顺序执行此操作。首先，我们想通过一个分支，然后通过另一个分支（我之前有过这个用例，所以它没有完全组成）。在这种情况下，在一个图上运行.backward()也会破坏卷积层中的任何梯度信息，并且第二个分支的卷积计算（因为这些是与另一个分支共享的唯一）将不再包含图形！这意味着，当我们尝试通过第二个分支进行反向提示时，Pytorch将抛出一个错误，因为它找不到连接输入和输出的图形！在这些情况下，我们可以通过在第一个向后传递上简单地保留图形来解决问题。然后不会消耗该图形，而是仅由不需要保留它的第一个向后传递消耗。

编辑：如果在所有后向传递中保留图形，则永远不会释放附加到输出变量的隐式图形定义。这里也可能有一个用例，但我想不出一个。所以一般来说，你应该确保最后一次向后传递通过不保留图形信息来释放内存。

至于多个向后传递会发生什么：正如您猜测的那样，pytorch通过将它们就地添加到变量（参数.grad属性）来累积渐变。这可能非常有用，因为它意味着循环遍历批处理并一次处理一次，在结束时累积渐变，将执行与完整批处理更新相同的优化步骤（仅将所有渐变总结为好）。虽然完全批量更新可以更多地并行化，因此通常是优选的，但是存在批量计算要么非常非常难以实现要么根本不可能的情况。然而，使用这种积累，我们仍然可以依赖于批量带来的一些良好的稳定特性。（如果不是性能增益）

参数retain_graph在Variable的backward（）方法中意味着什么？

问题描述投票：16回答：2

2个回答

一个说明性的例子

一个真实的用例

最新问题

参数retain_graph在Variable的backward（）方法中意味着什么？

问题描述 投票：16回答：2

2个回答

一个说明性的例子

一个真实的用例

最新问题

问题描述投票：16回答：2