牛顿法会归为梯度下降法吗？

可能是一个很琐碎的问题，但我只是想更清楚一些。从现有文献和What is the difference between Gradient Descent and Newton's Gradient Descent?中的讨论中，这两种方法都涉及计算导数，然后向最小值移动。在简单的梯度下降法的情况下，我们仅计算一阶导数。在牛顿方法中，我们计算二阶导数以及粗麻布，并将其应用于向量。而且，以牛顿/秒方法进行的矢量更新可能并不总是朝着（-ive）梯度的方向。

此外，对于给定的函数f（x），这两种方法都试图找到满足f'（x）= 0的最小值；在梯度下降法中，目标是argmin f（x），而在牛顿方法中，目标是f'（x）=0。另一个区别是停止准则，在梯度下降法中，目标是f'（x）= 0，而在牛顿法中，它是f（x）= 0。

基于上述论点，是否有理由说牛顿法是基于梯度的优化方法的一个（先进的）示例？上面引用的讨论也无法回答这个问题。

0
投票

在梯度下降法中，目标是argmin f（x），而在牛顿法中，目标是f'（x）= 0

不是这样，两个目标都是f'(x)=0。与牛顿法一样，使用梯度下降法时，您没有任何关于所达到的最小值是全局的还是局部的信息，因此argmin f(x)仅适用于非常小的邻域。

另一个差异是停止准则，在梯度下降法中，f'（x）= 0，而在牛顿法中，其为f（x）= 0

再次，那是不正确的。两者都试图使成本函数f(x)最小化，并且没有任何保证f(x)的最小值为零。它可以是任意值，因此选择f(x)=0作为停止标准显然是错误的。停止这两种方法的一个很好的标准是查看在几次连续迭代中f(x)的变化量。如果几秒钟都没有变化，那么您可能会得出结论，您已经达到平稳并停止。作为替代方案，您可以使用诸如梯度的绝对值之类的标准，或者，如果您有时间限制，则可以仅使用固定数量的迭代。

有理由说牛顿法是基于梯度的优化方法的（高级）示例

根据定义，渐变方法沿渐变的方向看。如您所知，牛顿方法使用局部曲率来定义朝向局部最优的路径，并且可能根本不遵循与梯度相同的方向，因此将其称为基于梯度根本没有意义。

问题描述投票：0回答：1

1个回答

最新问题

牛顿法会归为梯度下降法吗？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1