在PPO中更新策略时,限幅部分将权重停止在r(θ)精确为1±ε的确切值上,还是允许其超过该值,然后通过设置渐变为零?实际发生的是哪一个?
或者它是否允许超过该值,然后通过将梯度设置为零来阻止其进一步发展?