reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域，涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

VowpalWabbit 上下文强盗模型未按预期收敛

我正在模拟一个场景，其中有两个选项（体育/政治）和两个转化率（c_0，c_1）。为了决定向客户显示哪个选项，我使用了上下文强盗......

python-3.x reinforcement-learning vowpalwabbit

回答 1 投票 0

健身房（openAI）环境动作空间取决于实际状态

我正在使用gym工具包创建我自己的env，并使用keras-rl在代理中使用我的env。问题是我的动作空间发生了变化，这取决于实际状态。例如，我有 46 种可能的...

reinforcement-learning openai-gym keras-rl

回答 2 投票 0

了解健身房中自定义环境和代理的行动和观察空间

我目前正在尝试学习强化学习（RL）。我对这个领域还很陌生，我对文字墙表示歉意。我遇到过很多使用 TensorFlow、Keras 等 RL 的例子

reinforcement-learning openai-gym keras-rl

回答 2 投票 0

使用自定义keras模型，层共享dqn_agent.DqnAgent()

我正在尝试将自定义神经网络与 tf.在我的模型中，我需要使用图层共享。因此，我使用函数式 API 来构建模型。该模型有一个字典作为输入并且...

python tensorflow neural-network reinforcement-learning dqn

回答 1 投票 0

导出 .onnx 文件时未分配提供商、rl-agents 的问题

我试图使用 rl-agents 和 godot 创建一个 AI。一切都很顺利，直到导出过程。发生了以下错误：引发值错误（ ValueError：此 ORT 版本有 ['

python reinforcement-learning godot onnxruntime

回答 1 投票 0

如何在 google colab 上显示超级马里奥环境

完成 = 正确对于范围内的步长（100000）：如果完成： env.reset() 状态、奖励、完成、info = env.step(env.action_space.sample()) ...

python artificial-intelligence reinforcement-learning openai-gym

回答 3 投票 0

OpenAi 健身房：太多变数无法解开

我正在谷歌协作中为Cartapole-v0创建一个模型，但是我在训练它时遇到了太多变量来解包问题 pip install stable-baselines3[额外] !apt-get install x11-utils >...

python machine-learning reinforcement-learning openai-gym

回答 3 投票 0

节点：“顺序/密集/MatMul”In[0] 和 In[1] 具有不同的 ndim：[4] 与 [4,24]' 使用 cartpole exgample 的 keras.model.predict() 错误

我尝试使用 DQN 训练 cartpole，这是强化学习的一个示例。但我遇到了运行错误。在此刻目标 = self.model.predict(states) 我不明白为什么会发生这种情况，e...

python tensorflow keras reinforcement-learning

回答 1 投票 0

Pytorch 优化器消息：“API 已更改，`state_steps` 参数必须包含单例张量列表”

我正在尝试实现一个A3C强化学习程序，我使用MorvanZhou的代码作为样板。然而，pytorch 优化器现在似乎使用单例而不是整数......

deep-learning pytorch python-multiprocessing reinforcement-learning gradienttape

回答 2 投票 0

如何解决策略梯度中的零概率问题？

最近，我尝试将朴素的策略梯度方法应用于我的问题。然而，我发现神经网络最后一层的不同输出之间的差异是巨大的，这......

reinforcement-learning policy-gradient-descent

回答 2 投票 0

清理健身房环境中的传感器数据

我有一个强化学习程序，它使用 OpenAI 健身房模块来创建环境。我从传感器获取数据，RL 问题基于传感器数据，RL 问题不是......

python multithreading reinforcement-learning openai-gym

回答 1 投票 0

如何将使用 stable-baselines3 创建的 A2C 模型导出到 PyTorch？

我使用 stable-baselines3 训练了一个 A2C 模型（MlpPolicy）（我对强化学习很陌生，发现这是一个很好的起点）。不过，我现在想使用 XRL（eXplainable

deep-learning pytorch neural-network reinforcement-learning stable-baselines

回答 1 投票 0

执行终止时停止稳定基线学习方法

我正在使用 satble-baselines3 的“学习”方法来训练模型。问题是我的agent里的奖励是负数，我希望agent有种一有就停下来的冲动……

python-3.x reinforcement-learning openai-gym stable-baselines

回答 1 投票 0

TypeError：JoypadSpace.reset() 收到意外的关键字参数“seed”，当我运行以下代码时，我应该如何解决此问题？

当我运行此代码时：从 nes_py.wrappers 导入 JoypadSpace 进口健身房导入gym_super_mario_bros 从gym_super_mario_bros.actions导入SIMPLE_MOVMENT 从gym.wrappers导入GrayScaleObser...

python machine-learning reinforcement-learning openai-api openai-gym

回答 2 投票 0

在没有模型的情况下如何为强化学习问题创建响应式环境？

我想使用强化学习解决调度优化问题。我没有环境模型，据我所知强化学习不需要环境模型。我的问题...

optimization simulation scheduling reinforcement-learning multi-agent-reinforcement-learning

回答 1 投票 0

我在创建gym_super_mario_bros env时遇到问题并且出现KeyError：'render_modes'

我正在尝试遵循 Nicholas Renotte 教程的“使用 Python 构建 Mario AI 模型 | 游戏强化学习”，但由于出现一些错误而无法继续。这是我的代码：！点子插入...

python jupyter-notebook artificial-intelligence reinforcement-learning openai-gym

回答 2 投票 0

为什么Stable-Baselines3的evaluate_policy()函数永远无法完成/完成？

我使用 OpenAI Gym 和 Stable-Baselines3 创建了自己的自定义环境。训练完代理后，我尝试使用 stable_baselines3 中的valuate_policy() 函数来评估策略。

reinforcement-learning openai-gym stable-baselines openai-api

回答 2 投票 0

使用 RL Zoo 在稳定基线 3 中对自定义 Gym Env 进行超参数调整

我已经创建了一个 Gym 环境，并且能够通过 PPO 从稳定基线 3 对其进行训练。但是，我没有得到想要的结果。代理似乎陷入了局部最优而不是......

python reinforcement-learning openai-gym hyperparameters stable-baselines

回答 1 投票 0

稳定基线 - model.predict：如何选择 GPU

我正在使用 Stable-Baselines3，我想测试我刚刚训练的模型。如何分配特定的 GPU 来执行 model.predict 方法？

reinforcement-learning stable-baselines

回答 1 投票 0

在 Keras DQN（强化学习）中实现 Dropout

首先我必须说我知道，Dropout 在强化学习（RL）中并不常见。在这里您可以阅读有关该主题的更多信息以及为什么它可能有意义： https://towardsdatascience.com/

python keras reinforcement-learning

回答 1 投票 0

reinforcement-learning 相关问题

最新问题