强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。
我正在从Q-learning Perspective研究GridWorld。关于以下问题,我有一些问题:1)在网格世界的例子中,奖励对目标是积极的,对于进入...而言是负面的。
如何更改A3C Tensorflow示例以播放Atari游戏?
我按照Tensorflow教程实施了A3C,以便在cartpole环境中做得很好,并希望将它作为一些Atari游戏的游戏机器人的起点。但是,......
我知道强化学习的基础知识,但是为了能够阅读arxiv PPO论文需要了解哪些条款?学习和使用PPO的路线图是什么?
我的问题与强化学习的实施无关,而是在每个州都是终极状态时理解RL的概念。我举个例子:一个机器人正在学习...
我正在研究我的学士论文。我的主题是强化学习。设置:Unity3D(C#)自己的神经网络框架确认网络通过测试来训练正弦函数。它......
有关如何在Tensorflow中使用tf.contrib.rnn.NASCell的示例代码
在观看Tensorflow 2017 Summit视频后,我对这个使用强化学习的新对象感到好奇,以便找到最佳NN架构。我是Python和Tensorflow的新手。只是......
我有一个网格环境,在每个单元格中包含一个静态代理。当我的代理人进入一个单元格时,这个单元格中的静态代理可能会从我那里拿走分数,给我分数,或什么也不做。我的经纪人......
我想使用DDPG在虚拟环境中构建自主船。然而,问题是转向的动作空间为(-180',+ 180'),DDPG可以选择-180'......
使用model.predict训练CartPole-v0 OpenGym时出错
当我开始强化学习时,我选择了cartpole问题,并按照一些在线教程建立了tensorflow的训练模型。培训随机发生......
我正在使用基于rlglue的python-rl框架进行q-learning。我的理解是,在过多的剧集中,算法会收敛到一个最优策略(这是一个映射,表示对...采取的行动
Newb问题我正在用TensorFlow编写一个OpenAI Gym pong播放器,到目前为止已经能够基于随机初始化创建网络,以便随机返回移动...
我可以将TD政策应用于此类环境吗?或者只有像DQN这样的方法?为什么?我尝试将TD政策评估应用于Gym的Atari游戏在Python中的模拟,我对它有点新意。我有这个 ...
为什么我们总是需要为开放式健身房设置env.seed(#)?
我发现所有的强化学习算法都需要在第一手中设置env.seed(#),我想知道它背后的原因。非常感谢你!
深层强化学习和强化学习有什么区别?我基本上知道强化学习是什么,但具体的术语深刻地代表了什么......
我的主要问题是;平均损失与平均梯度相同,我如何在迷你批次上积累我的损失然后计算我的梯度?我一直在努力实施......
无效操作的Policy Gradient(REINFORCE)
目前我正在尝试为游戏实施REINFORCE策略梯度方法(使用神经网络)。显然,某些行为在某些州无效(无法解雇......)
对于atari游戏,A2C默认使用“经常性政策”吗?我发现很难理解他们高度工程化的代码。
我正在使用Sutton&Barto的电子书强化学习:研究强化学习的入门。我在尝试模拟动作值页面上的结果(图表)时遇到了一些问题。 ...
我需要在每次迭代中求和渐变,然后将这些渐变转移到另一个过程以重现学习的网络。关键代码如下所示。方法1:类Net(nn.Module):...
我目前正在使用OpenAI基线的代码来训练模型,在我的train.py中使用以下代码:从baselines.common import tf_util作为U import tensorflow作为tf import gym,从...记录