神经网络如何知道它从行动中得到的奖励？

问题描述投票：2回答：1

我目前正致力于建立一个深度q网络，我有点困惑我的Q网络如何知道我给它的奖励。

例如，我有这个具有策略和时间差异的状态动作函数：

然后我有我的Q网络：

在我输入状态的地方，我在同一个观察中得到4个不同的q值。理论上明智的我如何奖励我的Q网络，因为我唯一的输入是状态而不是奖励。

我希望有人能解释一下这个！

neural-network deep-learning reinforcement-learning q-learning

1个回答

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.