Lunar Lander-v2 中使用 RL 算法 PPO 的问题

问题描述 投票:0回答:1

在算法PPO中,需要计算一个比率为

ratios = torch.exp(new_probs-old_probs)
,它是当前策略下的动作概率除以先前策略下的动作概率之间的比率。 但在我的实践中,比率等于 1 并且它永远不会改变。与此同时,演员损失和评论家损失在减少,但平均剧集奖励在波动,没有上升趋势。这与比率等于 1 有关吗?

我不知道问题出在哪里。有没有人见过同样的问题?你能给我一些建议吗?非常感谢!

reinforcement-learning openai-gym actor-critics
1个回答
0
投票

您的政策网络将使用相同的数据更新多次,old_probs 将保留而 new_probs 会发生变化(每次更新),是的,完成收集新数据后第一次更新的比率为 1,但第一次更新后比率会发生变化,并且夹在 1-epsilon 和 1+epsilon

之间
© www.soinside.com 2019 - 2024. All rights reserved.