强化学习中简单示例中的策略梯度算法中的目标网络是什么?

问题描述 投票:1回答:1

与常规网络有何不同源文本->“在DDPG算法中,拓扑由每个网络的两个网络权重副本组成((参与者:常规和目标)和(关键:常规和目标)”

reinforcement-learning policy-gradient-descent
1个回答
0
投票

[抱歉,但是恐怕您必须在这里稍微了解一下DDPG算法的数学原理,才能理解为什么将其称为“目标网络”。 DDPG最小化了以下损失(来自原始纸张https://arxiv.org/pdf/1509.02971.pdf):

enter image description here

其中Q由您的神经网络又名。您的“代理”和y是所谓的target。因此,Q(s_t,a_t | theta)对应于您的代理在给定状态s,操作a和网络权重的输出。 >。但是,正如您所看到的,目标取决于代理程序的相同(神经网络)参数。实际上,当使上述损失最小化时,这种依赖性导致不稳定。

缓解此问题的一个技巧是使用“第二”目标网络,而目标网络可以是其中的一个

只需从固定网络中复制每个固定数目的步骤(例如,每10,000次迭代)。这是DQN中采用的方法。

    或实际代理(“常规”)网络的滞后版本,其中通过所谓的polyak平均来实现滞后。也就是说,不是仅通过复制常规网络来更新目标网络的权重,而是在每次迭代时都采用某种加权平均值。这是DDPG中采用的方法。
  • 简单地说,目标网络不过是常规网络的滞后版本。
© www.soinside.com 2019 - 2024. All rights reserved.