牛顿法会归为梯度下降法吗?

问题描述 投票:0回答:1

可能是一个很琐碎的问题,但我只是想更清楚一些。从现有文献和What is the difference between Gradient Descent and Newton's Gradient Descent?中的讨论中,这两种方法都涉及计算导数,然后向最小值移动。在简单的梯度下降法的情况下,我们仅计算一阶导数。在牛顿方法中,我们计算二阶导数以及粗麻布,并将其应用于向量。而且,以牛顿/秒方法进行的矢量更新可能并不总是朝着(-ive)梯度的方向。

此外,对于给定的函数f(x),这两种方法都试图找到满足f'(x)= 0的最小值;在梯度下降法中,目标是argmin f(x),而在牛顿方法中,目标是f'(x)=0。另一个区别是停止准则,在梯度下降法中,目标是f'(x)= 0,而在牛顿法中,它是f(x)= 0。

基于上述论点,是否有理由说牛顿法是基于梯度的优化方法的一个(先进的)示例?上面引用的讨论也无法回答这个问题。

gradient-descent newtons-method
1个回答
0
投票

在梯度下降法中,目标是argmin f(x),而在牛顿法中,目标是f'(x)= 0

不是这样,两个目标都是f'(x)=0。与牛顿法一样,使用梯度下降法时,您没有任何关于所达到的最小值是全局的还是局部的信息,因此argmin f(x)仅适用于非常小的邻域。

另一个差异是停止准则,在梯度下降法中,f'(x)= 0,而在牛顿法中,其为f(x)= 0

再次,那是不正确的。两者都试图使成本函数f(x)最小化,并且没有任何保证f(x)的最小值为零。它可以是任意值,因此选择f(x)=0作为停止标准显然是错误的。停止这两种方法的一个很好的标准是查看在几次连续迭代中f(x)的变化量。如果几秒钟都没有变化,那么您可能会得出结论,您已经达到平稳并停止。作为替代方案,您可以使用诸如梯度的绝对值之类的标准,或者,如果您有时间限制,则可以仅使用固定数量的迭代。

有理由说牛顿法是基于梯度的优化方法的(高级)示例

根据定义,渐变方法沿渐变的方向看。如您所知,牛顿方法使用局部曲率来定义朝向局部最优的路径,并且可能根本不遵循与梯度相同的方向,因此将其称为基于梯度根本没有意义。

© www.soinside.com 2019 - 2024. All rights reserved.