reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

如何解决pytorch中剪枝模型的深度复制错误

我正在尝试构建一个强化学习模型,其中我的演员网络有一些修剪过的连接。 当使用 torchrl 中的数据收集器 SyncDataCollector 时,深度复制失败(请参见下面的错误)。 这似乎...

回答 1 投票 0

Gym eplus 环境重置出错。找不到平台相关库并且内核总是很忙

找不到平台相关库,内核总是很忙。我正在等待,内核仍然很忙,但我的 energyplus 已成功完成。 [2024-03-08 14:58:19,486]

回答 1 投票 0

Deep Q 学习中目标网络尾随的有效性有数学证明吗?

在深度 Q 学习中,让目标网络跟随主网络,并每 100 步左右同步它们似乎是常见的做法,但我不清楚为什么会这样。 最好的解释...

回答 1 投票 0

OpenAI Gym 中的盒子空间始终返回浮点值

我正在尝试使用 OpenAI Gym 开始强化学习。我尝试进行“Hotter-Colder”练习(https://gym.openai.com/envs/HotterColder-v0/)。 对于动作空间,我正在尝试...

回答 1 投票 0

Pytorch 几何图批处理不使用 DataLoader 进行强化学习

我对使用图神经网络(GNN)还很陌生。我正在使用 PyTorch 几何。我正在创建一个强化学习算法,因此我想避免使用内置的 DataLoade...

回答 1 投票 0

强化学习推导中的随机梯度下降[已关闭]

我正在阅读 Sutton 和 Barto 的 RL 教科书,并且一直致力于理解我们如何从方程 9.4 得到方程 9.5。据我了解,9.4中的nabla/del告诉我们,我们必须求...的导数

回答 1 投票 0

Python 错误显示 pygame 和gymnasium [classic-control] 未安装,但两者均已安装

我刚刚开始学习OpenAIgymnasium,从CartPole-v1开始。 作为新手,我正在学习 YouTube 教程;视频:https://www.youtube.com/watch?v=Mut_u40Sqz4&t=2076s (我准备...

回答 2 投票 0

在 google colab 中运行健身房 atari?

所以我希望使用 GPU/TPU 在 colab 上训练一个模型,因为我的本地机器没有 GPU/TPU。我并不关心可视化训练,我只是想让 colab 来完成大部分工作。 当

回答 3 投票 0

稳定基线 3 在剧集被截断时抛出 ValueError

因此,我尝试通过 stablebaselines3 在我的自定义体育馆环境中训练代理,但它似乎总是随机崩溃并抛出以下 ValueError: 追溯(最近一次调用...

回答 1 投票 0

用零初始化 Q 表是否会对强化学习中的第一个动作产生偏差?

我正在研究一个强化学习问题,我用零初始化了 Q 表。我注意到,当不同动作的所有 Q 值最初设置为零时,arg-max 函数...

回答 1 投票 0

ndims 必须 >= 2: 1 强化学习中的问题

我有以下代码,用于基于以下链接将深度学习模型应用于 LunarLander-v2 环境:LunarLander-v2 代码在这里: # 将gymnas导入为gym 导入张量...

回答 1 投票 0

我应该使用强化学习将哪些内容保存到文件/数据库中?

我写了一个小井字棋游戏。到目前为止,计算机使用随机动作与自己对战。 现在,我想通过编写一个代理来应用强化学习,该代理将基于...

回答 1 投票 0

我的图书馆gym无法导入到jupyter笔记本

为什么我在jupyter笔记本中导入gym,没有名为“gym”的模块???我已经有了环境并成功安装了gym,但是当我尝试导入时没有模块 在此输入图像描述 我

回答 1 投票 0

体育馆/宠物动物园:让 Tic Tac Toe 显示 ansi 文本

使用 Tic Tac Toe 环境: 从 pettingzoo.classic 导入 tictactoe_v3 env = tictactoe_v3.env(render_mode="ansi") 环境重置(种子=1) 环境步骤(1) 打印(env.render()) 这输出...

回答 1 投票 0

在线分类时差学习实现

我正在读一本书“麻省理工学院分布式强化学习”,我实现了在线分类时差学习来学习策略的回报分布。 (呃...

回答 1 投票 0

如何在强化学习算法中实现连续动作空间的限制范围

我一直在自定义健身房环境中使用DDPG代理,它对不同的动作空间有不同的限制,代码如下: self.action_space = space.Box( low=np.array([自我.

回答 1 投票 0

2048游戏的AI

我有用Python编写的2048游戏。 我给自己定义了一个项目,创建一个人工智能来玩这个游戏,不输给2048,并一直成为赢家。 重点是我不想使用任何

回答 1 投票 0

Q-learning 模型中的训练速度减慢问题 - TensorFlow

我在使用 TensorFlow 实现的 Q-learning 模型中遇到了训练速度变慢的问题。我简化了我的代码,以专注于训练循环并在每集之后保存模型。该项目...

回答 1 投票 0

Q 学习代理为达到目标采取了太多步骤

我目前正在为 OpenAI Gym 中的 FrozenLake-v1 环境实施 Q-learning。然而,我的经纪人似乎喜欢采取很多不必要的步骤来达到目标。我已经审查过...

回答 1 投票 0

有办法改变超级马里奥兄弟(NES)1级世界1的寄存器以从特定位置开始吗?

我一直在使用gym-super-mario-bros库(https://github.com/Kautenja/gym-super-mario-bros),我试图更改寄存器的值以设置马里奥对特定角色的定位...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.