所以我想了解Gradient Descent并且我很困惑。如果你有一个抛物线,当你改变一个重量时,这是抛物线。而不是在x的点上取导数,为什么不轻易找到抛物线的顶点?
您可以。如果你的损失函数实际上是一个抛物线(或其他方便的凸函数),你可以。但更有可能的是,你的损失函数是非凸的和超级复杂的,你不知道它是先验的。所以我们按照我们的方式使用梯度下降 - 我们不断采样。当你看到方便的抛物线时,这只是一个简化的插图。