PPO参数调整

问题描述 投票:0回答:1

我已经在自己的环境中测试了PPO-Clip。然而,在实现收敛后,学习曲线有时会转变成足够低的奖励,如下所示。 当我检查训练日志时,我发现在出现异常问题时,价值损失会突然增加,如下表所示。 如果有人知道如何解决这个问题,我将不胜感激。

tensorflow2.0 reinforcement-learning
1个回答
0
投票

和我一样,也许你可以削弱动作标准

© www.soinside.com 2019 - 2024. All rights reserved.