与常规网络有何不同源文本->“在DDPG算法中,拓扑由每个网络的两个网络权重副本组成((参与者:常规和目标)和(关键:常规和目标)”
[抱歉,但是恐怕您必须在这里稍微了解一下DDPG算法的数学原理,才能理解为什么将其称为“目标网络”。 DDPG最小化了以下损失(来自原始纸张https://arxiv.org/pdf/1509.02971.pdf):
其中Q由您的神经网络又名。您的“代理”和y是所谓的target。因此,Q(s_t,a_t | theta)对应于您的代理在给定状态s,操作a和网络权重的输出。 >。但是,正如您所看到的,目标取决于代理程序的相同(神经网络)参数。实际上,当使上述损失最小化时,这种依赖性导致不稳定。
缓解此问题的一个技巧是使用“第二”目标网络,而目标网络可以是其中的一个只需从固定网络中复制每个固定数目的步骤(例如,每10,000次迭代)。这是DQN中采用的方法。