强化学习推导中的随机梯度下降[已关闭]

问题描述 投票:0回答:1

我正在阅读 Sutton 和 Barto 的 RL 教科书,并且一直致力于理解我们如何从方程 9.4 得到方程 9.5。据我了解,9.4 中的 nabla/del 告诉我们必须对后面的表达式求导。因此,2 的指数下降并抵消了 1/2,表达式旁边只剩下 alpha 和 del。那么,你是否应用链式法则来求解方括号内的值函数表达式呢?当我这样做时,我没有得到相同的结果,因此如果有人可以提供帮助,那将非常有帮助!

screenshot of the equations

文本链接(免费)在这里(图片来自第 201 页):http://incompleteideas.net/book/RLbook2020.pdf

reinforcement-learning derivative stochastic-gradient
1个回答
-1
投票

请注意,导数是针对 w 求的。是的,作者使用链式法则来计算这个导数。括号内的第一项是相对于 w 的常数。得出第二项的-1系数。

© www.soinside.com 2019 - 2024. All rights reserved.