reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

深度强化学习

我正在使用深度强化学习方法来导航代理从一个初始点到目标点。场景中还有其他特工和障碍物。 我的第一个问题是输入什么

回答 1 投票 0

强化学习代理为每个状态选择相同的动作 - 具有 stable_baselines3 的 OpenAI 健身房环境

我一直在训练一个强化学习代理来玩终极井字棋(井字棋的扩展版本,带有 9x9 棋盘和附加规则)。 我创建了一个开放的健身房环境,...

回答 1 投票 0

PettingZoo 特工训练超级套装和稳定基线 3

我正在尝试使用稳定的基线和超级套装在 PettingZoo 环境中训练代理。 来自稳定基线 3(测试版)的新版本现在支持 Gymnasium,而不仅仅是 Gym。

回答 1 投票 0

调用图层时遇到异常且“KerasTensor”对象不可调用

我是强化学习的新手。 我想查看并理解预测 Kerath 演员评论家价值的代码,然后进行一些更改来运行它。 示例代码:https://github.com/keras-team/

回答 1 投票 0

“运行‘dqn.test’时没有执行,也没有错误消息”

运行代码scores = dqn.test(env, nb_episodes=100, Visualize=False)时,我遇到一个问题,执行时间很长,但没有产生任何输出或错误消息。 ...

回答 1 投票 0

openai 健身房 env.P,AttributeError 'TimeLimit' 对象没有属性 'P'

我目前正在阅读 Sudharsan Ravichandiran 的《Python 强化学习实践》,在我遇到的第一个示例中遇到了这个 AttributeError: AttributeError 'TimeLimit' 对象没有

回答 4 投票 0

Pytorch简单线性Sigmoid网络不学习

我正在学习 pytorch 并尝试将网络训练为异或门。一切都进行得很顺利,但它就是不学习。它确实改变了它的权重,但它会收敛到每个输入的结果......

回答 2 投票 0

我收到此错误(ValueError:参数 loc 具有无效值),该错误中止了我的代理的训练。环境是openai的摆

环境是 OpenAI Gym 的 Pendulum。 Pytorch 1.9.1+cu102是用于训练模型的包。 此错误发生在代码周围: out = Lorian(torch.tensor(观察)) 发行版=火炬。

回答 1 投票 0

如何实现强化学习代理的动态动作选择

我有离散动作空间,代理可以在其中降低或减少某个值。但是我不希望代理将值更改固定数量,例如“将值增加 2”,但是...

回答 1 投票 0

Keras:AttributeError:“Adam”对象没有属性“_name”

我想编译我的 DQN 代理,但出现错误: AttributeError:“Adam”对象没有属性“_name”, DQN = buildAgent(模型,操作) DQN.compile(Adam(lr=1e-3), 指标=['mae']) 我尝试添加...

回答 3 投票 0

无法在Windows上安装gym[box2d]

我在 Windows 上安装gym[box2d] 时遇到问题。我有 SWIG 版本 4.0.2、Python 版本 3.11.4、VSCode 版本 1.81、Conda 版本 23.7.2、pip 版本 23.1.2、gym 版本 0.26.2、Visual C++

回答 0 投票 0

更新 LSTM 网络的自定义输出层

我有一个文本生成任务,学习使用具有多个输出层的 LSTM 网络来预测下一个单词。 句子生成完成后,我计算整个句子的奖励

回答 0 投票 0

如何在 Ray Tune (tune.run()) 中使用带火炬的 PPO 模型在 200 个步骤后结束剧集

我使用以下代码导入自定义环境,然后对其进行训练: 从 ray.tune.registry 导入 register_env 进口射线 从射线导入空气,调整 来自 ray.rllib.algorithms.ppo imp...

回答 1 投票 0

为什么 `ep_rew_mean` 远大于 `evaluate_policy()` 函数评估的奖励

我编写了一个自定义的健身房环境,并使用 stable-baselines3 提供的 PPO 进行训练。 Tensorboard记录的ep_rew_mean如下: 总共 1 亿步的 ep_rew_mean 曲线,每个 e...

回答 2 投票 0

如何使用`SB3`创建多个体育馆环境以供手动使用?

我知道 SB3 提供了各种技术来构建矢量化环境。我想限制自己只使用矢量化环境并从头开始实现 RL 算法。 W...

回答 0 投票 0

使用 TensorFlow Agents 的自定义 Keras 层中不同变量的不同学习率

按照 TensorFlow Agents 的训练深度 Q 网络教程,我正在实现一个顺序模型,其中包括一个自定义层作为 q_net,以作为参数传递给 DqnAgent(..., q_ne...

回答 0 投票 0

国际象棋机器人未达到预期水平 - 蒙特卡洛树搜索

我正在为 Sebastian Lague 的“Tiny Chess Bots”竞赛创建一个国际象棋机器人。 它使用具有上置信界的蒙特卡罗树搜索,问题是它玩得非常...

回答 0 投票 0

在强化学习中,如何告诉智能体动作空间中的某些动作目前在健身房中不可用?

我想通过强化学习来做出任务分配决策。假设有 N 个任务需要分配,M 个服务器来完成这些任务。 然而,有一个限制,即一项任务应该...

回答 0 投票 0

stable_baselines3 的 A2C 模型的动作空间是如何工作的?

我正在尝试使用 python-chess 和 stable_baselines3 Python 库构建一个 A2C 模型来下棋,但即使在 100k 训练游戏之后,我的模型也没有显示出太大的进展。我用的是铜...

回答 0 投票 0

如何编写用于高频交易价格预测的 Transformer 模型以及如何使用强化学习进行做市?

高频交易代码 https://drive.google.com/drive/folders/1skLjoGylrfjFJFUIAVEPBX2f76e2ZWOQ;https://github.com/eeeweeer49/opensource-hft 包括使用变压器进行价格预测...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.