reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

是一个基于规则的系统,学习加强学习?

我正在读Glenn Seemann和David M Bourg的书“游戏开发人员的AI”,他们使用视频游戏AI作为基于规则的系统学习的一个例子。从本质上讲,玩家有3 ...

回答 1 投票 1

keras-rl的EpisodeParameterMemory有什么作用?

我找到了keras-rl / examples / cem_cartpole.py示例,我想了解,但我找不到文档。行内存是什么= EpisodeParameterMemory(limit = 1000,...

回答 2 投票 0

资格跟踪:在线与离线λ-返回算法

我有一些问题,要弄清楚为什么你需要重新审视每个地平线上的一集中的所有时间步骤,从书中的λ-返回算法的在线版本:强化......

回答 1 投票 1

深度Q /强化学习中的预处理是否会降低准确性?

我一直在阅读深度强化学习,例如:https://www.nervanasys.com/demystifying-deep-reinforcement-learning/在我了解所有数学之前还有一段时间但是...

回答 1 投票 0

如何在一个运行M次的循环中随机执行N次任务N次?

要求:我需要在玩500轮的游戏中执行任务T,N次。我有一个循环,运行某些游戏相关的任务500次。在此,我想执行任务......

回答 3 投票 -3

经过大量培训后,神经元网络的适应能力会变慢吗?

我是神经网络领域的初学者,我想了解某个陈述。一位朋友说,在你输入大量数据之后神经元网络会变慢。现在,我刚刚做了...

回答 1 投票 -1

加强学习连续状态和行动空间

问题我的目标是应用强化学习来预测3D环境中已知力下物体的下一个状态(该方法将减少到监督学习,离线...

回答 2 投票 1

在强化学习中发生碰撞时是否有必要结束剧集

我已经实现了q学习算法,其中代理尝试尽可能地旅行。我也在使用即时奖励和最后一集奖励。当经纪人碰撞时,我给予高度......

回答 1 投票 0

基础强化学习中的折扣奖励

我想知道强化学习的折扣奖励如何实际起作用。我相信这个想法是,一集中的奖励比早期奖励更重。这完美......

回答 1 投票 1

强化学习 - 驾驶到航点

我正在玩电脑游戏中自制驾驶汽车。我正在考虑使用强化学习,并让汽车在地图上找到一个位置。奖励将是...的功能

回答 1 投票 1

Karpathy Pong他是怎么得到的(我的 - 围裙)?

我试图理解在这里解释的用于Python的Karpathy的pong代码:karpathy pong#转发策略网络并从返回的概率中采样动作######### action 2 up and 3 ...

回答 1 投票 0

值迭代和策略迭代之间有什么区别?

在强化学习中,策略迭代和值迭代之间有什么区别?根据我的理解,在价值迭代中,你使用贝尔曼方程来求解最优...

回答 4 投票 53

体验重播让我的经纪人变得更糟[关闭]

我已经'成功'建立了一个Q-network来解决OpenAI健身房的'FrozenLake-v0'环境(至少,我认为..不是100%肯定我的得分 - 我在100个成功剧集中得到70到80个5k之后......

回答 1 投票 0

深q学习(dqn)与神经拟合q-迭代之间的差异

深度q学习(dqn)与“人类控制通过深度强化学习”和神经拟合q-迭代之间的差异来自“神经拟合Q迭代 - 第一次经验......

回答 1 投票 1

如何将UNO建模为POMDP

我试图将UNO纸牌游戏建模为部分可观察的马尔可夫决策过程(POMDP)。我做了一点点研究,得出结论,各州将是卡的数量,......

回答 1 投票 1

关于simulink模型的A3C

我目前在我的simulink模型上单独运行我的深度强化学习算法。它们通过TCP / IP连接进行连接。 Python将动作发送到simulink,simulink发送环境......

回答 1 投票 0

网络在形状N的网格上训练良好,但在评估任何变化时都会失败

对于训练,我随机生成一个形状N的网格,其值为0和1.有两个动作定义为[0,1],我想教下一个策略使用DQN在下一个数字为1时采取0的动作...

回答 1 投票 1

如何修复'ValueError:检查输入时出错:期望dense_1_input有形状(4,)但是在Python中有错误的形状(1,)数组?

我从Spyder控制台得到的错误如下:runfile('/ Users / ozgeozler / Pygame / rl_game.py',wdir ='/ Users / ozgeozler / Pygame')剧集:1 2019-04-28 23:48:19.057 python [33387:195175] IMKClient ...

回答 1 投票 0

在强化学习政策梯度方法中,A3C和PPO有何相似之处?

有没有简单的方法将PPO的属性与A3C方法合并? A3C方法运行了许多parrel actor并优化了参数。我正在尝试将PPO与A3C合并。

回答 1 投票 1

GAE:为什么GAE的表现比标准化的回报和优势更差

我正在用GAE实现PPO作为优势。以下代码是我计算GAE的方式,并根据OpenAI的基线实现返回。优点= np.zeros_like(奖励)last_adv = 0 ...

回答 2 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.