reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

VowpalWabbit 上下文强盗模型未按预期收敛

我正在模拟一个场景,其中有两个选项(体育/政治)和两个转化率(c_0,c_1)。为了决定向客户显示哪个选项,我使用了上下文强盗......

回答 1 投票 0

健身房(openAI)环境动作空间取决于实际状态

我正在使用gym工具包创建我自己的env,并使用keras-rl在代理中使用我的env。 问题是我的动作空间发生了变化,这取决于实际状态。 例如,我有 46 种可能的...

回答 2 投票 0

了解健身房中自定义环境和代理的行动和观察空间

我目前正在尝试学习强化学习(RL)。我对这个领域还很陌生,我对文字墙表示歉意。 我遇到过很多使用 TensorFlow、Keras 等 RL 的例子

回答 2 投票 0

使用自定义keras模型,层共享dqn_agent.DqnAgent()

我正在尝试将自定义神经网络与 tf.在我的模型中,我需要使用图层共享。因此,我使用函数式 API 来构建模型。该模型有一个字典作为输入并且...

回答 1 投票 0

导出 .onnx 文件时未分配提供商、rl-agents 的问题

我试图使用 rl-agents 和 godot 创建一个 AI。一切都很顺利,直到导出过程。 发生了以下错误: 引发值错误( ValueError:此 ORT 版本有 ['

回答 1 投票 0

如何在 google colab 上显示超级马里奥环境

完成 = 正确 对于范围内的步长(100000): 如果完成: env.reset() 状态、奖励、完成、info = env.step(env.action_space.sample()) ...

回答 3 投票 0

OpenAi 健身房:太多变数无法解开

我正在谷歌协作中为Cartapole-v0创建一个模型,但是我在训练它时遇到了太多变量来解包问题 pip install stable-baselines3[额外] !apt-get install x11-utils >...

回答 3 投票 0

节点:“顺序/密集/MatMul”In[0] 和 In[1] 具有不同的 ndim:[4] 与 [4,24]' 使用 cartpole exgample 的 keras.model.predict() 错误

我尝试使用 DQN 训练 cartpole,这是强化学习的一个示例。 但我遇到了运行错误。 在此刻 目标 = self.model.predict(states) 我不明白为什么会发生这种情况,e...

回答 1 投票 0

Pytorch 优化器消息:“API 已更改,`state_steps` 参数必须包含单例张量列表”

我正在尝试实现一个A3C强化学习程序,我使用MorvanZhou的代码作为样板。然而,pytorch 优化器现在似乎使用单例而不是整数......

回答 2 投票 0

如何解决策略梯度中的零概率问题?

最近,我尝试将朴素的策略梯度方法应用于我的问题。然而,我发现神经网络最后一层的不同输出之间的差异是巨大的,这......

回答 2 投票 0

清理健身房环境中的传感器数据

我有一个强化学习程序,它使用 OpenAI 健身房模块来创建环境。我从传感器获取数据,RL 问题基于传感器数据,RL 问题不是......

回答 1 投票 0

如何将使用 stable-baselines3 创建的 A2C 模型导出到 PyTorch?

我使用 stable-baselines3 训练了一个 A2C 模型(MlpPolicy)(我对强化学习很陌生,发现这是一个很好的起点)。 不过,我现在想使用 XRL(eXplainable

回答 1 投票 0

执行终止时停止稳定基线学习方法

我正在使用 satble-baselines3 的“学习”方法来训练模型。问题是我的agent里的奖励是负数,我希望agent有种一有就停下来的冲动……

回答 1 投票 0

TypeError:JoypadSpace.reset() 收到意外的关键字参数“seed”,当我运行以下代码时,我应该如何解决此问题?

当我运行此代码时: 从 nes_py.wrappers 导入 JoypadSpace 进口健身房 导入gym_super_mario_bros 从gym_super_mario_bros.actions导入SIMPLE_MOVMENT 从gym.wrappers导入GrayScaleObser...

回答 2 投票 0

在没有模型的情况下如何为强化学习问题创建响应式环境?

我想使用强化学习解决调度优化问题。我没有环境模型,据我所知强化学习不需要环境模型。我的问题...

回答 1 投票 0

我在创建gym_super_mario_bros env时遇到问题并且出现KeyError:'render_modes'

我正在尝试遵循 Nicholas Renotte 教程的“使用 Python 构建 Mario AI 模型 | 游戏强化学习”,但由于出现一些错误而无法继续。 这是我的代码: !点子插入...

回答 2 投票 0

为什么Stable-Baselines3的evaluate_policy()函数永远无法完成/完成?

我使用 OpenAI Gym 和 Stable-Baselines3 创建了自己的自定义环境。训练完代理后,我尝试使用 stable_baselines3 中的valuate_policy() 函数来评估策略。

回答 2 投票 0

使用 RL Zoo 在稳定基线 3 中对自定义 Gym Env 进行超参数调整

我已经创建了一个 Gym 环境,并且能够通过 PPO 从稳定基线 3 对其进行训练。但是,我没有得到想要的结果。代理似乎陷入了局部最优而不是......

回答 1 投票 0

稳定基线 - model.predict:如何选择 GPU

我正在使用 Stable-Baselines3,我想测试我刚刚训练的模型。 如何分配特定的 GPU 来执行 model.predict 方法?

回答 1 投票 0

在 Keras DQN(强化学习)中实现 Dropout

首先我必须说我知道,Dropout 在强化学习(RL)中并不常见。在这里您可以阅读有关该主题的更多信息以及为什么它可能有意义: https://towardsdatascience.com/

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.