PPO的梯度削波是否确实防止r(θ)超过1±ε?

问题描述 投票:0回答:1

在PPO中更新策略时,限幅部分将权重停止在r(θ)精确为1±ε的确切值上,还是允许其超过该值,然后通过设置渐变为零?实际发生的是哪一个?

algorithm machine-learning artificial-intelligence reinforcement-learning
1个回答
1
投票

或者它是否允许超过该值,然后通过将梯度设置为零来阻止其进一步发展?

© www.soinside.com 2019 - 2024. All rights reserved.