我应该避免将L2正则化与RMSprop和NAG结合使用吗?
L2正则化项干扰梯度算法(RMSprop)?
最好的祝福,
似乎有人已经解决了(2018)问题(2017)。
香草适应性梯度(RMSProp,Adagrad,Adam等)与L2正则化不匹配。
链接到论文[https://arxiv.org/pdf/1711.05101.pdf]和一些介绍:
在本文中,我们表明,最流行的自适应梯度方法Adam的一般化程度较差的一个主要因素是由于L2正则化对它而言并不像SGD那样有效。
L2正则化和权重衰减不相同。与普遍看法相反,这两种技术并不相同。对于SGD,可以通过基于学习率的重量衰减因子的重新参数化来使它们相等;亚当并非如此。特别是,当与自适应梯度结合时,L2正则化导致具有大梯度的权重比使用权重衰减时更小的权重。