深度神经网络跳过连接实现为求和vs连接? [关闭]

问题描述 投票:3回答:1

在深度神经网络中,我们可以实现跳过连接来帮助:

  • 解决消失梯度问题,训练更快
  • 网络学习低级和高级功能的组合
  • 在下采样期间恢复信息丢失,如最大池。

https://medium.com/@mikeliao/deep-layer-aggregation-combining-layers-in-nn-architectures-2744d29cab8

但是,我读了一些源代码,一些实现了跳过连接作为连接,一些作为求和。所以我的问题是每个实现的好处是什么?

tensorflow computer-vision deep-learning keras
1个回答
8
投票

基本上,差异取决于最终层受中间特征影响的不同方式。

使用逐元求和(例如ResNet)的跳过连接的标准体系结构可以在某种程度上被视为迭代估计过程(参见例如this work),其中通过网络的各个层来细化特征。这种选择的主要好处在于它的工作原理并且是一种紧凑的解决方案(它可以在一个块中保持固定的功能数量)。

具有级联跳过连接的架构(例如DenseNet)允许后续层重复使用中间表示,保持更多信息,这可以导致更好的性能。除了特征重用之外,另一个结果是隐式深度监督(如this work),它允许更好的梯度传播通过网络,特别是对于深度(实际上它已被用于Inception架构)。

显然,如果没有正确设计,连接功能可以导致参数的指数增长(这部分解释了您指出的工作中使用的分层聚合),并且根据问题,使用大量信息可能导致过度拟合。

© www.soinside.com 2019 - 2024. All rights reserved.