reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

找不到python错误解决方法:ndexError: Dimension out of range(expected to be in range of [-1, 0], but got 1)

我现在正在实施PPO。正在实施一种具有一个输入和一个输出变量的算法,并且这些错误不断发生。 第 89 行,在 train_net 中 ratio = torch.exp(pi_a.squeeze(d...

回答 0 投票 0

我的 PPO 算法代码不工作,需要修复

刚接触AI,写了一些算法代码。 但是 PPO 有点复杂,我不知道我的代码有什么问题。 谁能帮忙? 下面是我的代码,用 colab 编写: Block1 进口...

回答 0 投票 0

Vizdoom 和体育馆多重环境

我正在使用带有 Vizdoom 的体育馆,尝试应用具有稳定基线的 A2C 算法。我知道体育馆支持多种环境(这里的例子)但我想知道是否有可能做...

回答 0 投票 0

尝试执行 PPOConfig 时出现 RolloutWorker 问题:创建任务中引发的异常:参与者因其创建任务中引发的错误而死亡

我正在尝试按照“RLlib 入门”(https://docs.ray.io/en/latest/rllib/rllib-training.html) 中提到的步骤以及我的自定义环境进行操作。 但是我的跑步没有......

回答 1 投票 0

在健身房环境中渲染时出错

我正在尝试为一个 RL 项目工作,我需要在某个 Atari 环境中测试这些想法,我选择 Pong 来测试最初的想法。我正在使用 stable-baselines3 版本 1.6.2 以方便

回答 1 投票 0

我的代码使用强化学习 (Q) 来分析网格并给出最高数字的顺序是循环的

这是任务,以我理解的形式: 我有一个带有不同数字的 5x5 网格。该示例的范围可以是 0 到 9。 我有 100 个货币可以花,我们将...

回答 0 投票 0

用于强化学习的 OpenAI Gym Mario 模型中的值太多/不足

使用 OpenAI Gym 的强化学习能够为玩超级马里奥兄弟制作强化模型。我尝试按照 Nicholas Renotte 的 youtube 教程进行此操作,但大约 10 英里...

回答 1 投票 0

我正在尝试学习如何使用 PPO 解决 Car Racing 环境,但遇到内存分配错误

据我了解,PPO只是对其他强化方法的修改,意味着剪切梯度以防止采取太大的步骤。我在这里使用 Actor Critic 方法,

回答 0 投票 0

在多臂老虎机问题上使用神经网络强化学习

出于教育目的,我正在尝试针对多臂强盗问题实施一个非常简单的带有强化学习(Q 学习)的神经网络。到目前为止,我已经成功实施了它

回答 0 投票 0

设置 OpenAI Gym(现为 Gymnasium)的显示宽度

我正在尝试在 Gymnasium(以前是 OpenAI Gym)中打印出一些值,例如: 进口体育馆作为健身房 env = gym.make("LunarLander-v2", render_mode="human") 观察,信息...

回答 2 投票 0

我想将此代码从 tensorflow 转换为 pytorch,这并不难,但我今天真的需要它,保持相同的符号很重要

这是代码,我想要具有相同符号的 pytorch 代码(变量和函数..) 这是使用 lstm 改进 DQN 算法的张量流实现 对我来说最重要的...

回答 0 投票 0

设置 OpenAI Gym(现为 Gymnasium)的显示宽度

我正在尝试在 Gymnasium(以前是 OpenAI Gym)中打印出一些值,例如: 进口体育馆作为健身房 env = gym.make("LunarLander-v2", render_mode="human") 观察,信息...

回答 0 投票 0

解释方差在一个范围内时编写回调

我目前正在使用 stable_baselines3 库和 gym_anytrading 编写强化学习模型。我已经为一个环境编写了代码来训练模型并且有很多次......

回答 0 投票 0

如何使用 PyTorch 将自定义类型作为观察值传递给 DQN 代理?

我想将自定义状态(观察)传递给我的代理,其中包括一组自定义类型对象(属于我定义的名为 Task 的类)、电池电量(整数)、资源(整数)和通道。 ..

回答 1 投票 0

为什么我的方法中的前两个赋值语句连续运行两次?

def step(self, t, action): 完成=(如果(self.state == self.T)为真,否则为假) 自我状态 += 1 self.S[self.state] = self.lFn() 返回 self.state, self.getReward(t, ac...

回答 1 投票 0

为什么方法中的代码会重复运行?

def step(self, t, action): 完成=(如果(self.state == self.T)为真,否则为假) 自我状态 += 1 self.S[self.state] = self.lFn() 返回 self.state, self.getReward(t, ac...

回答 0 投票 0

有没有办法知道 Unity ML Agent 训练的正确时间尺度?

我正在训练一个 AI 来学习如何玩 flappy bird。 我用高时间尺度训练它,它只在特定的速度下表现良好。当它应用于游戏的默认时间尺度 1 时,......

回答 1 投票 0

为什么它告诉我 IndexError:只有整数、切片(`:`)、省略号(`...`)、numpy.newaxis(`None`)和整数或布尔数组是有效的索引

在以下用于强化学习的代码中,当我在 google colabs 上运行它时,我没有收到错误,但在 Jupiter Notebooks 上我得到: IndexError:只有整数、切片(:)、省略号(...)、numpy。

回答 1 投票 0

Unity MlAgents 我的模型不必要地跳跃

我是 Unity 和 ML-Agents 的新手。我已经为我的模型创建了一个环境并开始在那里进行训练。然而,我的模型在脚本中的每时每刻都在跳跃,即使它不是

回答 0 投票 0

PyTorch 中的基本策略梯度实现问题

我试图理解 https://github.com/openai/spinningup/blob/master/spinup/examples/pytorch/pg_math/1_simple_pg.py 中的代码,它实现了最基本的策略梯度形式。具体...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.