reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域，涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

如何解决pytorch中剪枝模型的深度复制错误

我正在尝试构建一个强化学习模型，其中我的演员网络有一些修剪过的连接。当使用 torchrl 中的数据收集器 SyncDataCollector 时，深度复制失败（请参见下面的错误）。这似乎...

python pytorch reinforcement-learning deep-copy pruning

回答 1 投票 0

Gym eplus 环境重置出错。找不到平台相关库并且内核总是很忙

找不到平台相关库，内核总是很忙。我正在等待，内核仍然很忙，但我的 energyplus 已成功完成。 [2024-03-08 14:58:19,486]

python reinforcement-learning openai-gym energyplus

回答 1 投票 0

Deep Q 学习中目标网络尾随的有效性有数学证明吗？

在深度 Q 学习中，让目标网络跟随主网络，并每 100 步左右同步它们似乎是常见的做法，但我不清楚为什么会这样。最好的解释...

neural-network reinforcement-learning computation-theory q-learning

回答 1 投票 0

OpenAI Gym 中的盒子空间始终返回浮点值

我正在尝试使用 OpenAI Gym 开始强化学习。我尝试进行“Hotter-Colder”练习（https://gym.openai.com/envs/HotterColder-v0/）。对于动作空间，我正在尝试...

python-3.x reinforcement-learning openai-gym stable-baselines

回答 1 投票 0

Pytorch 几何图批处理不使用 DataLoader 进行强化学习

我对使用图神经网络（GNN）还很陌生。我正在使用 PyTorch 几何。我正在创建一个强化学习算法，因此我想避免使用内置的 DataLoade...

pytorch reinforcement-learning pytorch-geometric graph-neural-network

回答 1 投票 0

强化学习推导中的随机梯度下降[已关闭]

我正在阅读 Sutton 和 Barto 的 RL 教科书，并且一直致力于理解我们如何从方程 9.4 得到方程 9.5。据我了解，9.4中的nabla/del告诉我们，我们必须求...的导数

reinforcement-learning derivative stochastic-gradient

回答 1 投票 0

Python 错误显示 pygame 和gymnasium [classic-control] 未安装，但两者均已安装

我刚刚开始学习OpenAIgymnasium，从CartPole-v1开始。作为新手，我正在学习 YouTube 教程；视频：https://www.youtube.com/watch?v=Mut_u40Sqz4&t=2076s （我准备...

python reinforcement-learning openai-gym

回答 2 投票 0

在 google colab 中运行健身房 atari？

所以我希望使用 GPU/TPU 在 colab 上训练一个模型，因为我的本地机器没有 GPU/TPU。我并不关心可视化训练，我只是想让 colab 来完成大部分工作。当

python google-colaboratory reinforcement-learning

回答 3 投票 0

稳定基线 3 在剧集被截断时抛出 ValueError

因此，我尝试通过 stablebaselines3 在我的自定义体育馆环境中训练代理，但它似乎总是随机崩溃并抛出以下 ValueError：追溯（最近一次调用...

python reinforcement-learning openai-gym stable-baselines

回答 1 投票 0

用零初始化 Q 表是否会对强化学习中的第一个动作产生偏差？

我正在研究一个强化学习问题，我用零初始化了 Q 表。我注意到，当不同动作的所有 Q 值最初设置为零时，arg-max 函数...

reinforcement-learning q-learning

回答 1 投票 0

ndims 必须 >= 2: 1 强化学习中的问题

我有以下代码，用于基于以下链接将深度学习模型应用于 LunarLander-v2 环境：LunarLander-v2 代码在这里： # 将gymnas导入为gym 导入张量...

python tensorflow keras reinforcement-learning

回答 1 投票 0

我应该使用强化学习将哪些内容保存到文件/数据库中？

我写了一个小井字棋游戏。到目前为止，计算机使用随机动作与自己对战。现在，我想通过编写一个代理来应用强化学习，该代理将基于...

machine-learning artificial-intelligence reinforcement-learning

回答 1 投票 0

我的图书馆gym无法导入到jupyter笔记本

为什么我在jupyter笔记本中导入gym，没有名为“gym”的模块？？？我已经有了环境并成功安装了gym，但是当我尝试导入时没有模块在此输入图像描述我

python reinforcement-learning openai-gym

回答 1 投票 0

体育馆/宠物动物园：让 Tic Tac Toe 显示 ansi 文本

使用 Tic Tac Toe 环境：从 pettingzoo.classic 导入 tictactoe_v3 env = tictactoe_v3.env(render_mode="ansi") 环境重置（种子=1）环境步骤(1) 打印（env.render（））这输出...

reinforcement-learning openai-gym pettingzoo

回答 1 投票 0

在线分类时差学习实现

我正在读一本书“麻省理工学院分布式强化学习”，我实现了在线分类时差学习来学习策略的回报分布。（呃...

python reinforcement-learning

回答 1 投票 0

如何在强化学习算法中实现连续动作空间的限制范围

我一直在自定义健身房环境中使用DDPG代理，它对不同的动作空间有不同的限制，代码如下： self.action_space = space.Box( low=np.array([自我.

python pytorch implementation reinforcement-learning

回答 1 投票 0

2048游戏的AI

我有用Python编写的2048游戏。我给自己定义了一个项目，创建一个人工智能来玩这个游戏，不输给2048，并一直成为赢家。重点是我不想使用任何

machine-learning artificial-intelligence reinforcement-learning 2048

回答 1 投票 0

Q-learning 模型中的训练速度减慢问题 - TensorFlow

我在使用 TensorFlow 实现的 Q-learning 模型中遇到了训练速度变慢的问题。我简化了我的代码，以专注于训练循环并在每集之后保存模型。该项目...

python tensorflow reinforcement-learning

回答 1 投票 0

Q 学习代理为达到目标采取了太多步骤

我目前正在为 OpenAI Gym 中的 FrozenLake-v1 环境实施 Q-learning。然而，我的经纪人似乎喜欢采取很多不必要的步骤来达到目标。我已经审查过...

python reinforcement-learning openai-gym q-learning

回答 1 投票 0

有办法改变超级马里奥兄弟（NES）1级世界1的寄存器以从特定位置开始吗？

我一直在使用gym-super-mario-bros库（https://github.com/Kautenja/gym-super-mario-bros），我试图更改寄存器的值以设置马里奥对特定角色的定位...

python reinforcement-learning openai-gym nes

回答 1 投票 0

reinforcement-learning 相关问题

最新问题