何时在卷积神经网络中使用/不使用偏差项

问题描述 投票:0回答:1

这个问题最近突然出现在我的脑海里。我向 GPT 和其他几个模型询问了卷积网络中偏差项的重要性。他们所有人的反应都不同,而且非常肤浅。我偶尔也会看到 Kaggle 笔记本,人们在训练模型时在 conv/dense 层中设置“bias=False”或“bias=True”。您能否分享关于为什么偏差术语可能很重要以及何时考虑启用/禁用它的见解?谢谢。

computer-vision conv-neural-network bias-neuron
1个回答
0
投票

需要记住的一件事是,对于许多流行的激活函数(EG Relu)选择,在任何没有偏差的神经元中,零输入值将映射到零输出值。同样,如果您的整个网络使用此类激活函数(没有归一化),则同样适用:零输入映射到零输出,因此暗像素(值为零)将映射到零,并且有效地表现出线性。如果您希望所有像素表现出非线性(对于神经网络来说通常如此),一种解决方案是使用偏差。

Transformer 的情况略有不同:它们经常使用偏差,部分原因是它们使用频繁的层归一化层,这有效地添加了自己的偏差。

但在某些情况下,EG SWIN 转换器,注意力图的大小始终是已知的(等于窗口大小),并且它们将学习的位置偏差直接添加到注意力图。

© www.soinside.com 2019 - 2024. All rights reserved.