openai-gym 相关问题

OpenAI Gym是一个强化学习研究平台,旨在为各种环境提供通用智能基准。

了解健身房中自定义环境和代理的行动和观察空间

我目前正在尝试学习强化学习(RL)。我对这个领域还很陌生,我对文字墙表示歉意。 我遇到过很多使用 TensorFlow、Keras 等 RL 的例子

回答 2 投票 0

如何在 google colab 上显示超级马里奥环境

完成 = 正确 对于范围内的步长(100000): 如果完成: env.reset() 状态、奖励、完成、info = env.step(env.action_space.sample()) ...

回答 3 投票 0

OpenAi 健身房:太多变数无法解开

我正在谷歌协作中为Cartapole-v0创建一个模型,但是我在训练它时遇到了太多变量来解包问题 pip install stable-baselines3[额外] !apt-get install x11-utils >...

回答 3 投票 0

pip:“extras_require”必须是一个字典,其值是包含有效项目/版本要求说明符的字符串或字符串列表

我尝试运行 pip installgym==0.21.0 但出现了神秘的错误: 采集健身房==0.21.0 使用缓存的gym-0.21.0.tar.gz (1.5 MB) 准备元数据(setup.py)...错误 错误:子进程-ex...

回答 1 投票 0

[GYM][SB3]自定义环境 - 如何根据当前状态限制代理的操作

我正在使用 Gym 构建自定义环境。现在工作得很好,但我想解决动作的限制。 我正在使用 np.clip,因此代理根据

回答 1 投票 0

稳定基线的字典观察空间3不起作用

我在下面创建了一个最小的可重现示例,可以轻松地在新的 Google Colab 笔记本中运行。第一次安装完成后,只需运行时 > 重新启动并运行全部即可使其生效...

回答 3 投票 0

如何在马厩中停止 PPO 的学习过程?

因此,我创建了一个基于gymnasium的自定义环境,我想使用stable_baselines3中的PPO对其进行训练。我正在使用后者的2.0.0a5版本,以便使用gymnasium。我有以下...

回答 1 投票 0

清理健身房环境中的传感器数据

我有一个强化学习程序,它使用 OpenAI 健身房模块来创建环境。我从传感器获取数据,RL 问题基于传感器数据,RL 问题不是......

回答 1 投票 0

JoypadSpace.reset() 修改以解决“意外的关键字参数‘seed’”导致错误:“太多值无法解压(预期为 2)”

我遇到了与此处描述的相同的错误:TypeError:JoypadSpace.reset()得到了意外的关键字参数“种子”,当我运行以下代码时,我应该做什么来解决这个问题? 。 在...

回答 1 投票 0

执行终止时停止稳定基线学习方法

我正在使用 satble-baselines3 的“学习”方法来训练模型。问题是我的agent里的奖励是负数,我希望agent有种一有就停下来的冲动……

回答 1 投票 0

TypeError:JoypadSpace.reset() 收到意外的关键字参数“seed”,当我运行以下代码时,我应该如何解决此问题?

当我运行此代码时: 从 nes_py.wrappers 导入 JoypadSpace 进口健身房 导入gym_super_mario_bros 从gym_super_mario_bros.actions导入SIMPLE_MOVMENT 从gym.wrappers导入GrayScaleObser...

回答 2 投票 0

我在创建gym_super_mario_bros env时遇到问题并且出现KeyError:'render_modes'

我正在尝试遵循 Nicholas Renotte 教程的“使用 Python 构建 Mario AI 模型 | 游戏强化学习”,但由于出现一些错误而无法继续。 这是我的代码: !点子插入...

回答 2 投票 0

为什么Stable-Baselines3的evaluate_policy()函数永远无法完成/完成?

我使用 OpenAI Gym 和 Stable-Baselines3 创建了自己的自定义环境。训练完代理后,我尝试使用 stable_baselines3 中的valuate_policy() 函数来评估策略。

回答 2 投票 0

使用 RL Zoo 在稳定基线 3 中对自定义 Gym Env 进行超参数调整

我已经创建了一个 Gym 环境,并且能够通过 PPO 从稳定基线 3 对其进行训练。但是,我没有得到想要的结果。代理似乎陷入了局部最优而不是......

回答 1 投票 0

强化学习代理为每个状态选择相同的动作 - 具有 stable_baselines3 的 OpenAI 健身房环境

我一直在训练一个强化学习代理来玩终极井字棋(井字棋的扩展版本,带有 9x9 棋盘和附加规则)。 我创建了一个开放的健身房环境,...

回答 1 投票 0

PettingZoo 特工训练超级套装和稳定基线 3

我正在尝试使用稳定的基线和超级套装在 PettingZoo 环境中训练代理。 来自稳定基线 3(测试版)的新版本现在支持 Gymnasium,而不仅仅是 Gym。

回答 1 投票 0

“运行‘dqn.test’时没有执行,也没有错误消息”

运行代码scores = dqn.test(env, nb_episodes=100, Visualize=False)时,我遇到一个问题,执行时间很长,但没有产生任何输出或错误消息。 ...

回答 1 投票 0

openai 健身房 env.P,AttributeError 'TimeLimit' 对象没有属性 'P'

我目前正在阅读 Sudharsan Ravichandiran 的《Python 强化学习实践》,在我遇到的第一个示例中遇到了这个 AttributeError: AttributeError 'TimeLimit' 对象没有

回答 4 投票 0

我收到此错误(ValueError:参数 loc 具有无效值),该错误中止了我的代理的训练。环境是openai的摆

环境是 OpenAI Gym 的 Pendulum。 Pytorch 1.9.1+cu102是用于训练模型的包。 此错误发生在代码周围: out = Lorian(torch.tensor(观察)) 发行版=火炬。

回答 1 投票 0

OpenAI GYM 的 env.step():值是多少?

我正在使用Python3.10了解OpenAI的GYM(0.25.1),健身房的环境设置为“FrozenLake-v1”(代码如下)。 根据文档,调用 env.step() 应该返回一个元组包含...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.