PPO的梯度削波是否确实防止r（θ）超过1±ε？

Question

在PPO中更新策略时，限幅部分将权重停止在r（θ）精确为1±ε的确切值上，还是允许其超过该值，然后通过设置渐变为零？实际发生的是哪一个？

Answer 1

或者它是否允许超过该值，然后通过将梯度设置为零来阻止其进一步发展？