具有负值的OpenAi-Gym离散空间

问题描述 投票:0回答:1

我创建了一个自定义健身环境,其中动作可以是-100到+100之间的任何整数。据我所知,不可能创建一个允许负值的离散空间,而我唯一的解决方案是创建一个介于-100到+100之间的Box空间(注意这是一个连续的空间)。

由于大多数强化学习代理为操作空间假设了一个离散的空间,所以我在运行代码时遇到了困难(我知道有些像DDPG这样的代理在连续的操作空间中运行)。

在体育馆中可能有一个允许负值的离散空间?

python python-3.x reinforcement-learning openai-gym
1个回答
0
投票

AFAIK,在OpenAI-Gym离散环境中,您为每个可能的操作都有索引,因为您可能不需要负值。但是,您可以将每个操作索引映射为一个任意值,正值或负值。

例如,在Cartpole环境中,您可以向推车施加正向(向右推)或负向(向左推)力。使用离散环境action 0 = negative forceaction 1 = positive force对这个问题进行建模。有关更多详细信息,请检查Cartpole source code(例如,第95行)。

类似地,在您的情况下,尽管您的200个行动指数都为正,但它们可以代表正面或负面行动。

© www.soinside.com 2019 - 2024. All rights reserved.