RL算法已成功播放openai健身车CartPole-v1,但在atari Boxing-ram-v0上失败

问题描述 投票:0回答:1

我最近实现了ppo算法他在CartPole-v1上表现出色但是在Boxing-ram-v0中不起作用有人可以解释吗?

this is my repo

this is the train score history in CartPole-v1

and behavior in Boxing-ram-v0

有人可以解释吗?

python reinforcement-learning
1个回答
0
投票

我认为您的模型存在的问题是,在所有时间步长中,座席动作几乎都是相同的。这可能是由于神经网络变得饱和。在CartPole环境中,所有尺寸的状态都在[-,1,1]范围内,但在Boxing-ram-v0环境中则不在。因此,在将状态存储到缓冲区之前,您应该将状态标准化为[-1,1]范围。

希望这会有所帮助!

© www.soinside.com 2019 - 2024. All rights reserved.