设置openai健身房

我被赋予了设立openai玩具健身房的任务，只能由有记忆的经纪人来解决。我已经得到了一个有两扇门的例子，在时间t = 0时，我显示为1或-1。在t = 1时，我可以移动到正确的门并打开它。

有谁知道我将如何开始？我想证明a2c或ppo可以使用lstm策略解决这个问题。我该如何设置环境等？

0
投票

要以健身房格式创建新环境，它应该具有gym.core文件中提到的5个功能。

把它放在台阶上 -

这些功能足以在您的环境中运行RL代理。如果需要，可以跳过渲染，种子和关闭功能。

对于您定义的任务，您可以使用Discrete（2）对观察和动作空间建模。第一门为0，第二门为1。

坦率地说，您描述的问题对于任何强化学习算法来说似乎都太简单了，但我假设您已经提供了这个例子。记住更长的视野通常更难。

您可以阅读他们的文档和玩具环境，以了解如何创建一个。