我目前正致力于建立一个深度q网络,我有点困惑我的Q网络如何知道我给它的奖励。
例如,我有这个具有策略和时间差异的状态动作函数:
然后我有我的Q网络:
在我输入状态的地方,我在同一个观察中得到4个不同的q值。理论上明智的我如何奖励我的Q网络,因为我唯一的输入是状态而不是奖励。
我希望有人能解释一下这个!