让目标网络跟随主网络,并每 100 步左右同步它们,这似乎是深度 Q 学习 中的常见做法,但我不清楚为什么会这样。
我收到的关于为什么不明确的最佳解释是:
它可以防止网追逐自己的尾巴
是否有数学证明表明它比目标网络和主网络始终相同能产生更好的结果?
目标网络的使用,就像机器学习中的几乎所有内容一样,都是凭经验发现的。它是由 DeepMind 团队在其 2013 年开创性论文中创建的:
通过深度强化学习玩 Atari 存档
这就成了每个人都会做的事情;事实上的标准。