reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

无法通过 Gymnasium 导入 Atari 环境

我正在尝试使用 ALE 来测试 Atari 游戏与体育馆。我正在使用下面的代码来创建 Breakout 环境。 将体育馆导入为健身房 env =gym.make('ALE/Breakout-v5') 完成=假 虽然没有...

回答 2 投票 0

还有比这更好的方法来实现强化学习的 Softmax 动作选择吗?

我正在为强化学习任务实施 Softmax 动作选择策略 (http://www.incompleteideas.net/book/ebook/node17.html)。 我提出了这个解决方案,但我认为还有空间

回答 4 投票 0

Q-learning 中的学习曲线

我的问题是我用 c++ 用 epsilon 贪婪策略编写了 Q 学习算法,现在我必须绘制 Q 值的学习曲线。因为我有一个 11x5 Q

回答 2 投票 0

体育馆。连续空间中的动作

我被介绍给Gymnasium(健身房)和RL,有一点我不明白,关于健身房如何管理动作。 我读到健身房环境中的动作是整数,意味着......

回答 1 投票 0

在 Google Colaboratory 上运行gym-gazebo

我正在尝试在 Google Colaboratory 上运行gym-gazebo。 在Colab上运行gazebo服务器(没有gui的gazebo)有问题。 显示警告:无法创建 X 窗口。渲染将是

回答 1 投票 0

论文《Atari 基于模型的强化学习》中代理的输入是什么,为什么世界模型在推理时运行? [已关闭]

我目前正在阅读论文“Atari 基于模型的强化学习”(链接:https://arxiv.org/abs/1903.00374)。但是,他们没有指定到底使用什么作为

回答 1 投票 0

面对强化学习的问题

进口健身房 从 stable_baselines3 导入 A2C env =gym.make('LunarLander-v2', render_mode="人类") env.reset() 模型 = A2C("MlpPolicy", env, verbose=1) 模型.学习(total_tim...

回答 1 投票 0

在 torchrl 推出期间如何访问有关我的体育馆环境的更多信息?

我目前正在我的自定义体育馆环境中训练 PPO 算法,目的是进行追逐躲避游戏。然而,在培训过程中,我想定期评估计划...

回答 1 投票 0

Stabebaseline_contrib 在 MaskablePPO 训练期间生成 NAN 值

在训练过程中,nan值由算法产生。这些 nan 值是在神经网络中产生的。我在提出的问题中发现了几个想法,我尝试了所有这些想法,但仍然得到......

回答 1 投票 0

如何录制和保存健身房环境视频

我已经训练了一个 DQN 代理,我想使用gym.wrappers.RecordVideo 录制并保存单集的视频。到目前为止,这是我的代码: 从gym.wrappers导入RecordVideo env =gym.make(“

回答 2 投票 0

运行时错误:输入类型(无符号字符)和偏差类型(浮点型)应该相同

我正在使用 Pytorch、CUDA 和 Pycharm 为 Gymnasium 的俄罗斯方块环境编写 DQN 代理。当我的代理尝试决定采取行动时,错误就会出现。有问题 行动_...

回答 1 投票 0

为什么我的 RL 模型在加载到 pytorch 中后表现不一样?

我正在 Pytorch 中训练一些简单的强化学习神经网络。训练结束时,我像这样保存模型: torch.save(self.policy_NN.state_dict(), self.model_fname) 是

回答 2 投票 0

ValueError:检查输入时出错:预期 flatten_input 具有形状 (1, 4),但得到的数组具有形状 (1, 2)

我对强化学习还很陌生,我真的不明白为什么会出现这个错误。 随机导入 将 numpy 导入为 np 将 numpy 导入为 np 从tensorflow.keras.models导入顺序 来自tensorflow.keras。

回答 5 投票 0

OpenAIgymSuperMarioBros 对象没有属性“render_mode”

我正在尝试使用 stable-baselines3 PPO 模型来训练代理玩健身房超级马里奥兄弟,但是当它运行时,这是基本模型训练代码: 从 nes_py.wrappers 导入 JoypadSpace 导入

回答 1 投票 0

Keras 模型突然开始输出张量。如何恢复?

所以我正在学习 DQN 试图解决 Cart Pole env: 将体育馆导入为健身房 将 numpy 导入为 np 从 rl.agents 导入 DQNAgent 从 rl.memory 导入 SequentialMemory 从 rl.policy 导入

回答 1 投票 0

从健身房环境获取视频/gif

我希望你一切都好。我目前正在使用 Python 和强化学习编写代码,以便在 Atari 环境中玩 Breakout 游戏。我使用的环境是Gym,我...

回答 1 投票 0

开启AI健身房玩家模式

有谁知道如何作为玩家运行 OpenAI 健身房环境之一。就像让人类玩家玩一轮车竿一样?我看到有 env.mode = ' human' 但我没有...

回答 3 投票 0

在 PyTorch 中创建序列数据编码器时是否可以避免编码填充?

我正在尝试制作一个观察历史编码器,我的目标是建立一个模型,该模型将维度[时间、批次、特征]的可变长度序列作为输入(其中序列是填充...

回答 1 投票 0

训练深度 q 神经网络来驱动物理机器人穿过迷宫。计算所有可能动作的 q 值计算成本太高

我正在尝试训练神经网络来引导物理机器人穿过迷宫。我没有训练数据,必须使用强化学习来训练它。我正在使用深度 q 网络。然而我...

回答 1 投票 0

Raspberry Pi 上的深度强化学习

我正在尝试在 Raspberry Pi 4 上运行深度强化问题。代码在 Colab 上成功运行,但在我的 Pi 上显示以下错误。 /home/pi/.local/lib/python3.9/site-packages/flatbu...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.