reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

Q学习网格世界场景

我正在从Q-learning Perspective研究GridWorld。关于以下问题,我有一些问题:1)在网格世界的例子中,奖励对目标是积极的,对于进入...而言是负面的。

回答 2 投票 2

如何更改A3C Tensorflow示例以播放Atari游戏?

我按照Tensorflow教程实施了A3C,以便在cartpole环境中做得很好,并希望将它作为一些Atari游戏的游戏机器人的起点。但是,......

回答 1 投票 1

了解RL中的近端策略优化算法的方法是什么?

我知道强化学习的基础知识,但是为了能够阅读arxiv PPO论文需要了解哪些条款?学习和使用PPO的路线图是什么?

回答 4 投票 28

强化学习每个州都是终点

我的问题与强化学习的实施无关,而是在每个州都是终极状态时理解RL的概念。我举个例子:一个机器人正在学习...

回答 3 投票 0

强化学习 - 不会融合

我正在研究我的学士论文。我的主题是强化学习。设置:Unity3D(C#)自己的神经网络框架确认网络通过测试来训练正弦函数。它......

回答 1 投票 0

有关如何在Tensorflow中使用tf.contrib.rnn.NASCell的示例代码

在观看Tensorflow 2017 Summit视频后,我对这个使用强化学习的新对象感到好奇,以便找到最佳NN架构。我是Python和Tensorflow的新手。只是......

回答 1 投票 2

AI适用于静态环境

我有一个网格环境,在每个单元格中包含一个静态代理。当我的代理人进入一个单元格时,这个单元格中的静态代理可能会从我那里拿走分数,给我分数,或什么也不做。我的经纪人......

回答 1 投票 -1

强化学习中的行动变化限制

我想使用DDPG在虚拟环境中构建自主船。然而,问题是转向的动作空间为(-180',+ 180'),DDPG可以选择-180'......

回答 1 投票 0

使用model.predict训练CartPole-v0 OpenGym时出错

当我开始强化学习时,我选择了cartpole问题,并按照一些在线教程建立了tensorflow的训练模型。培训随机发生......

回答 1 投票 -1

Q-Learning融合到最优策略

我正在使用基于rlglue的python-rl框架进行q-learning。我的理解是,在过多的剧集中,算法会收敛到一个最优策略(这是一个映射,表示对...采取的行动

回答 1 投票 3

强化学习成本函数

Newb问题我正在用TensorFlow编写一个OpenAI Gym pong播放器,到目前为止已经能够基于随机初始化创建网络,以便随机返回移动...

回答 1 投票 0

OpenAI Gym Atari游戏,TD政策应用程序

我可以将TD政策应用于此类环境吗?或者只有像DQN这样的方法?为什么?我尝试将TD政策评估应用于Gym的Atari游戏在Python中的模拟,我对它有点新意。我有这个 ...

回答 1 投票 0

为什么我们总是需要为开放式健身房设置env.seed(#)?

我发现所有的强化学习算法都需要在第一手中设置env.seed(#),我想知道它背后的原因。非常感谢你!

回答 1 投票 1

强化学习和深度RL有什么区别?

深层强化学习和强化学习有什么区别?我基本上知道强化学习是什么,但具体的术语深刻地代表了什么......

回答 2 投票 20

如何累积我在迷你批次上的损失然后计算我的渐变

我的主要问题是;平均损失与平均梯度相同,我如何在迷你批次上积累我的损失然后计算我的梯度?我一直在努力实施......

回答 1 投票 2

无效操作的Policy Gradient(REINFORCE)

目前我正在尝试为游戏实施REINFORCE策略梯度方法(使用神经网络)。显然,某些行为在某些州无效(无法解雇......)

回答 1 投票 1

是否在OpenAI的A2C基线中默认使用经常性政策?

对于atari游戏,A2C默认使用“经常性政策”吗?我发现很难理解他们高度工程化的代码。

回答 1 投票 0

R中的n臂强盗模拟

我正在使用Sutton&Barto的电子书强化学习:研究强化学习的入门。我在尝试模拟动作值页面上的结果(图表)时遇到了一些问题。 ...

回答 4 投票 6

我可以在每次训练迭代中求和渐变吗?

我需要在每次迭代中求和渐变,然后将这些渐变转移到另一个过程以重现学习的网络。关键代码如下所示。方法1:类Net(nn.Module):...

回答 1 投票 0

无法使用保存的模型作为培训基线的MlpPolicy的起点?

我目前正在使用OpenAI基线的代码来训练模型,在我的train.py中使用以下代码:从baselines.common import tf_util作为U import tensorflow作为tf import gym,从...记录

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.