PPO参数调整

我已经在自己的环境中测试了PPO-Clip。然而，在实现收敛后，学习曲线有时会转变成足够低的奖励，如下所示。当我检查训练日志时，我发现在出现异常问题时，价值损失会突然增加，如下表所示。如果有人知道如何解决这个问题，我将不胜感激。

0
投票

和我一样，也许你可以削弱动作标准