我应该避免将L2正则化与RMSProp结合使用吗？

问题描述投票：1回答：1

我应该避免将L2正则化与RMSprop和NAG结合使用吗？

L2正则化项干扰梯度算法（RMSprop）？

最好的祝福，

machine-learning

neural-network

backpropagation

1个回答

1
投票

似乎有人已经解决了（2018）问题（2017）。

香草适应性梯度（RMSProp，Adagrad，Adam等）与L2正则化不匹配。

链接到论文[https://arxiv.org/pdf/1711.05101.pdf]和一些介绍：

在本文中，我们表明，最流行的自适应梯度方法Adam的一般化程度较差的一个主要因素是由于L2正则化对它而言并不像SGD那样有效。

L2正则化和权重衰减不相同。与普遍看法相反，这两种技术并不相同。对于SGD，可以通过基于学习率的重量衰减因子的重新参数化来使它们相等;亚当并非如此。特别是，当与自适应梯度结合时，L2正则化导致具有大梯度的权重比使用权重衰减时更小的权重。

我应该避免将L2正则化与RMSProp结合使用吗？

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1