我应该避免将L2正则化与RMSProp结合使用吗?

问题描述 投票:1回答:1

我应该避免将L2正则化与RMSprop和NAG结合使用吗?

L2正则化项干扰梯度算法(RMSprop)?

最好的祝福,

machine-learning neural-network backpropagation
1个回答
1
投票

似乎有人已经解决了(2018)问题(2017)。

香草适应性梯度(RMSProp,Adagrad,Adam等)与L2正则化不匹配。

链接到论文[https://arxiv.org/pdf/1711.05101.pdf]和一些介绍:

在本文中,我们表明,最流行的自适应梯度方法Adam的一般化程度较差的一个主要因素是由于L2正则化对它而言并不像SGD那样有效。

L2正则化和权重衰减不相同。与普遍看法相反,这两种技术并不相同。对于SGD,可以通过基于学习率的重量衰减因子的重新参数化来使它们相等;亚当并非如此。特别是,当与自适应梯度结合时,L2正则化导致具有大梯度的权重比使用权重衰减时更小的权重。

© www.soinside.com 2019 - 2024. All rights reserved.