reinforcement-learning 相关问题

[注意我正在使用xvfb-run -s“-screen 0 1400x900x24”jupyter notebook]我尝试在OpenAI Gym import gym中运行一组基本命令env = gym.make（“CartPole-v0”）obs = env。 reset（）env.render（）...

reinforcement-learning openai-gym

回答 2 投票 3

相对于矩阵的Tensorflow梯度

仅仅是为了上下文，我试图用Tensorflow实现梯度下降算法。我有一个矩阵X [x1 x2 x3 x4] [x5 x6 x7 x8]，我乘以一些特征向量Y得到Z [...

python matrix tensorflow gradient-descent reinforcement-learning

回答 2 投票 2

如何将Q-learning应用于OpenAI-gym环境，在每个时间段采取多项措施？

我已成功使用Q-learning来解决OpenAI Gym（即Taxi，CartPole）的一些经典强化学习环境。这些环境允许在每个环境中采取单一行动......

python reinforcement-learning openai-gym q-learning

回答 1 投票 1

实现近似（基于特征）q学习的问题

我是强化学习的新手。我最近了解了近似q学习或基于特征的q学习，其中您通过功能来描述状态以节省空间。我试图实施......

c++ machine-learning reinforcement-learning q-learning

回答 1 投票 1

DQN算法不会收敛于CartPole-v0

简短描述我的模型我试图在Python中编写我自己的DQN算法，使用Tensorflow（Mnih et al。，2015）。在train_DQN函数中，我定义了训练...

python tensorflow reinforcement-learning

回答 1 投票 0

规范化奖励以在强化学习中产生回报

问题是关于香草，非批量强化学习。基本上是Sutton的书中定义的内容。我的模型训练，（哇哦！）虽然有一个元素让我感到困惑。背景： ...

python tensorflow machine-learning reinforcement-learning

回答 1 投票 1

Q-learning和SARSA的贪婪选择是否相同？

Q学习和SARSA之间的区别在于Q学习比较当前状态和最佳可能的下一状态，而SARSA将当前状态与实际下一状态进行比较。如果...

reinforcement-learning q-learning sarsa

回答 3 投票 4

CartPole-v0的意外观察空间

我对CartPole-v0内省的观察空间感到惊讶。根据官方文档，这是我应该得到的：然而这是我得到的：print（env.observation_space ....

python reinforcement-learning openai-gym

回答 2 投票 0

强化学习工具

Tensorforce，Kerasrl和用于强化学习的chainerrl有什么区别？据我所知，所有这三个都与OpenAI健身房环境一起工作并具有相同的强化......

reinforcement-learning

回答 1 投票 1

如何将强化学习应用于连续动作空间？

我正在尝试让代理人学习在强化学习设置中最好地执行某些任务所必需的鼠标移动（即奖励信号是学习的唯一反馈）。我希望......

algorithm machine-learning reinforcement-learning q-learning

回答 5 投票 21

reinforcement-learning 相关问题

最新问题