强化学习中简单示例中的策略梯度算法中的目标网络是什么？

Question

与常规网络有何不同源文本->“在DDPG算法中，拓扑由每个网络的两个网络权重副本组成（（参与者：常规和目标）和（关键：常规和目标）”

Answer 1

[抱歉，但是恐怕您必须在这里稍微了解一下DDPG算法的数学原理，才能理解为什么将其称为“目标网络”。 DDPG最小化了以下损失（来自原始纸张https://arxiv.org/pdf/1509.02971.pdf）：

其中Q由您的神经网络又名。您的“代理”和y是所谓的target。因此，Q（s_t，a_t | theta）对应于您的代理在给定状态s，操作a和网络权重的输出。 >。但是，正如您所看到的，目标取决于代理程序的相同（神经网络）参数。实际上，当使上述损失最小化时，这种依赖性导致不稳定。

缓解此问题的一个技巧是使用“第二”目标网络，而目标网络可以是其中的一个
只需从固定网络中复制每个固定数目的步骤（例如，每10,000次迭代）。这是DQN中采用的方法。
或实际代理（“常规”）网络的滞后版本，其中通过所谓的polyak平均来实现滞后。也就是说，不是仅通过复制常规网络来更新目标网络的权重，而是在每次迭代时都采用某种加权平均值。这是DDPG中采用的方法。
简单地说，目标网络不过是常规网络的滞后版本。

强化学习中简单示例中的策略梯度算法中的目标网络是什么？

问题描述投票：1回答：1

1个回答

最新问题

强化学习中简单示例中的策略梯度算法中的目标网络是什么？

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1