神经网络如何知道它从行动中得到的奖励?

问题描述 投票:2回答:1

我目前正致力于建立一个深度q网络,我有点困惑我的Q网络如何知道我给它的奖励。

例如,我有这个具有策略和时间差异的状态动作函数:

state action fucntions

然后我有我的Q网络:

Q-network

在我输入状态的地方,我在同一个观察中得到4个不同的q值。理论上明智的我如何奖励我的Q网络,因为我唯一的输入是状态而不是奖励。

我希望有人能解释一下这个!

neural-network deep-learning reinforcement-learning q-learning
1个回答
© www.soinside.com 2019 - 2024. All rights reserved.