我被赋予了设立openai玩具健身房的任务,只能由有记忆的经纪人来解决。我已经得到了一个有两扇门的例子,在时间t = 0时,我显示为1或-1。在t = 1时,我可以移动到正确的门并打开它。
有谁知道我将如何开始?我想证明a2c或ppo可以使用lstm策略解决这个问题。我该如何设置环境等?
要以健身房格式创建新环境,它应该具有gym.core文件中提到的5个功能。
https://github.com/openai/gym/blob/e689f93a425d97489e590bba0a7d4518de0dcc03/gym/core.py#L11-L35
把它放在台阶上 -
这些功能足以在您的环境中运行RL代理。如果需要,可以跳过渲染,种子和关闭功能。
对于您定义的任务,您可以使用Discrete(2)对观察和动作空间建模。第一门为0,第二门为1。
坦率地说,您描述的问题对于任何强化学习算法来说似乎都太简单了,但我假设您已经提供了这个例子。记住更长的视野通常更难。
您可以阅读他们的文档和玩具环境,以了解如何创建一个。