reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域，涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

找不到python错误解决方法：ndexError: Dimension out of range(expected to be in range of [-1, 0], but got 1)

我现在正在实施PPO。正在实施一种具有一个输入和一个输出变量的算法，并且这些错误不断发生。第 89 行，在 train_net 中 ratio = torch.exp(pi_a.squeeze(d...

python machine-learning reinforcement-learning

回答 0 投票 0

我的 PPO 算法代码不工作，需要修复

刚接触AI，写了一些算法代码。但是 PPO 有点复杂，我不知道我的代码有什么问题。谁能帮忙？下面是我的代码，用 colab 编写： Block1 进口...

python-3.x pytorch reinforcement-learning

回答 0 投票 0

Vizdoom 和体育馆多重环境

我正在使用带有 Vizdoom 的体育馆，尝试应用具有稳定基线的 A2C 算法。我知道体育馆支持多种环境（这里的例子）但我想知道是否有可能做...

python python-3.x reinforcement-learning openai-gym stable-baselines

回答 0 投票 0

尝试执行 PPOConfig 时出现 RolloutWorker 问题：创建任务中引发的异常：参与者因其创建任务中引发的错误而死亡

我正在尝试按照“RLlib 入门”(https://docs.ray.io/en/latest/rllib/rllib-training.html) 中提到的步骤以及我的自定义环境进行操作。但是我的跑步没有......

python reinforcement-learning openai-gym ray rllib

回答 1 投票 0

在健身房环境中渲染时出错

我正在尝试为一个 RL 项目工作，我需要在某个 Atari 环境中测试这些想法，我选择 Pong 来测试最初的想法。我正在使用 stable-baselines3 版本 1.6.2 以方便

reinforcement-learning openai-gym stable-baselines

回答 1 投票 0

我的代码使用强化学习 (Q) 来分析网格并给出最高数字的顺序是循环的

这是任务，以我理解的形式：我有一个带有不同数字的 5x5 网格。该示例的范围可以是 0 到 9。我有 100 个货币可以花，我们将...

python artificial-intelligence reinforcement-learning q-learning

回答 0 投票 0

用于强化学习的 OpenAI Gym Mario 模型中的值太多/不足

使用 OpenAI Gym 的强化学习能够为玩超级马里奥兄弟制作强化模型。我尝试按照 Nicholas Renotte 的 youtube 教程进行此操作，但大约 10 英里...

python jupyter reinforcement-learning openai-gym

回答 1 投票 0

我正在尝试学习如何使用 PPO 解决 Car Racing 环境，但遇到内存分配错误

据我了解，PPO只是对其他强化方法的修改，意味着剪切梯度以防止采取太大的步骤。我在这里使用 Actor Critic 方法，

python tensorflow tensorflow2.0 reinforcement-learning openai-gym

回答 0 投票 0

在多臂老虎机问题上使用神经网络强化学习

出于教育目的，我正在尝试针对多臂强盗问题实施一个非常简单的带有强化学习（Q 学习）的神经网络。到目前为止，我已经成功实施了它

r neural-network reinforcement-learning q-learning

回答 0 投票 0

设置 OpenAI Gym（现为 Gymnasium）的显示宽度

我正在尝试在 Gymnasium（以前是 OpenAI Gym）中打印出一些值，例如：进口体育馆作为健身房 env = gym.make("LunarLander-v2", render_mode="human") 观察，信息...

python reinforcement-learning openai-gym

回答 2 投票 0

我想将此代码从 tensorflow 转换为 pytorch，这并不难，但我今天真的需要它，保持相同的符号很重要

这是代码，我想要具有相同符号的 pytorch 代码（变量和函数..）这是使用 lstm 改进 DQN 算法的张量流实现对我来说最重要的...

python tensorflow deep-learning pytorch reinforcement-learning

回答 0 投票 0

设置 OpenAI Gym（现为 Gymnasium）的显示宽度

我正在尝试在 Gymnasium（以前是 OpenAI Gym）中打印出一些值，例如：进口体育馆作为健身房 env = gym.make("LunarLander-v2", render_mode="human") 观察，信息...

python reinforcement-learning openai-gym

回答 0 投票 0

解释方差在一个范围内时编写回调

我目前正在使用 stable_baselines3 库和 gym_anytrading 编写强化学习模型。我已经为一个环境编写了代码来训练模型并且有很多次......

python-3.x reinforcement-learning openai-gym stable-baselines

回答 0 投票 0

如何使用 PyTorch 将自定义类型作为观察值传递给 DQN 代理？

我想将自定义状态（观察）传递给我的代理，其中包括一组自定义类型对象（属于我定义的名为 Task 的类）、电池电量（整数）、资源（整数）和通道。 ..

python pytorch reinforcement-learning dqn

回答 1 投票 0

为什么我的方法中的前两个赋值语句连续运行两次？

def step(self, t, action): 完成=（如果（self.state == self.T）为真，否则为假）自我状态 += 1 self.S[self.state] = self.lFn() 返回 self.state, self.getReward(t, ac...

python reinforcement-learning

回答 1 投票 0

为什么方法中的代码会重复运行？

def step(self, t, action): 完成=（如果（self.state == self.T）为真，否则为假）自我状态 += 1 self.S[self.state] = self.lFn() 返回 self.state, self.getReward(t, ac...

python reinforcement-learning

回答 0 投票 0

有没有办法知道 Unity ML Agent 训练的正确时间尺度？

我正在训练一个 AI 来学习如何玩 flappy bird。我用高时间尺度训练它，它只在特定的速度下表现良好。当它应用于游戏的默认时间尺度 1 时，......

unity3d machine-learning reinforcement-learning timedelta ml-agent

回答 1 投票 0

为什么它告诉我 IndexError：只有整数、切片（`:`）、省略号（`...`）、numpy.newaxis（`None`）和整数或布尔数组是有效的索引

在以下用于强化学习的代码中，当我在 google colabs 上运行它时，我没有收到错误，但在 Jupiter Notebooks 上我得到： IndexError：只有整数、切片（:）、省略号（...）、numpy。

python jupyter-notebook reinforcement-learning

回答 1 投票 0

Unity MlAgents 我的模型不必要地跳跃

我是 Unity 和 ML-Agents 的新手。我已经为我的模型创建了一个环境并开始在那里进行训练。然而，我的模型在脚本中的每时每刻都在跳跃，即使它不是

c# unity3d artificial-intelligence reinforcement-learning ml-agent

回答 0 投票 0

PyTorch 中的基本策略梯度实现问题

我试图理解 https://github.com/openai/spinningup/blob/master/spinup/examples/pytorch/pg_math/1_simple_pg.py 中的代码，它实现了最基本的策略梯度形式。具体...

pytorch reinforcement-learning

回答 0 投票 0

reinforcement-learning 相关问题

最新问题