reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

选择按概率加权的随机状态

我正在尝试为自定义RL算法创建随机环境,此代码的目的是获取有序字典(例如:OrderedDict([(0,1),(1,0),(2,0),( 3,0)])......中的第一个数字

回答 1 投票 1

SQUAD Challenge的EM得分

SQuAD Challenge将结果与F1和EM得分进行排名。有很多关于F1分数的信息(精确度和召回率的函数)。但EM得分会是多少?

回答 1 投票 0

坚持理解TD(0)和TD(λ)的更新用途之间的区别

我正在研究这篇文章中的时间差异学习。这里TD(0)的更新规则对我来说很清楚,但是在TD(λ)中,我不明白所有先前状态的效用值是如何更新的...

回答 3 投票 9

TRPO / PPO在损失函数中的重要抽样项

在信任区域政策优化(TRPO)算法(以及随后的PPO)中,我不理解从标准政策梯度中替换对数概率项的动机......

回答 2 投票 0

DQN - Q-Loss没有收敛

我正在使用DQN算法来训练我的环境中的代理,如下所示:代理通过选择离散动作(左,右,上,下)来控制汽车。目标是驾驶所需的...

回答 1 投票 5

无法使用具有函数逼近的Q-Learning来学习MountainCar

我正在尝试使用q-learning来实现求解MountainCar的线性函数逼近。我知道这个环境不能完全用线性函数近似,因为螺旋状......

回答 1 投票 2

CartPole的深度Q评分为9

所以我使用的是使用tensorflow来解决CartPole-v0的deepQ实现,但是输出有时(所有运行的40%)仍然停留在9.我尝试使用tf.set_random_seed修复种子,但是......

回答 1 投票 0

FrozenLake Q-Learning更新问题

我正在学习Q-Learning并试图在OpenAI Gym的FrozenLake-v0问题上建立一个Q-learner。由于问题只有16个状态和4个可能的动作,所以应该相当容易,但看起来像......

回答 1 投票 0

为什么要连续采取行动?

在Deep Reinforcement Learning中,使用连续动作空间,为什么在代理执行之前将动作钳制在一起似乎是常见做法?示例:OpenAI Gym Mountain Car https:...

回答 1 投票 1

具有负奖励的RL激活功能

对于具有正面和负面奖励的环境,我有一个关于适当激活功能的问题。在强化学习中,我相信,我们的产出应该是预期的......

回答 1 投票 4

MDP和强化学习 - VI,PI和Q学习算法的收敛性比较

我已经使用python实现了VI(Value Iteration),PI(Policy Iteration)和QLearning算法。比较结果后,我发现了一些东西。 VI和PI算法汇聚到相同的实用程序和......

回答 1 投票 1

张量流量损失已经很低

我正在进行强化学习的AI,并且我得到了奇怪的结果,丢失显示如下:Tensorflow损失:https://imgur.com/a/Twacm在训练时,每场比赛结束后,它正在播放.. 。

回答 1 投票 1

AlphaGo零板评估功能使用多个时间步作为输入......为什么?

根据AlphaGo Cheat Sheet,AlphaGo Zero使用一系列连续的板配置来编码其游戏状态。理论上,所有必要的信息都包含在最新的状态中,......

回答 1 投票 1

神经网络如何知道它从行动中得到的奖励?

我目前正致力于建立一个深度q网络,并且对我的Q网络如何知道我给它的奖励有点困惑。例如,我有这个状态动作功能与政策和时间...

回答 1 投票 2

Colaboratory:如何安装PyGame学习环境

在Colaboratory,我们被迫使用pip安装。一些第三个软件包,如健身房,PLE等,他们的安装应该是git clone https://github.com/ntasfi/PyGame-Learning-Environment.git cd ...

回答 1 投票 0

如何正确实现DQN算法

我正在尝试在本文中实现DeepMind引入的Deep Q Learning算法:https://arxiv.org/pdf/1312.5602.pdf我正在使用它来创建一个学习玩Pong的代理,但它... 。

回答 1 投票 0

Pytorch,`back` RuntimeError:尝试第二次向后遍历图形,但缓冲区已经被释放

我正在用PyTorch(0.4)实现DDPG并且卡住了支持损失。所以,首先我的代码执行更新:def update_nets(self,transitions):“”“执行一个更新步骤:...

回答 2 投票 2

如何通过遵循全局步骤在Keras中实现指数衰减学习率

请看下面的例子#noding:utf-8 import numpy as np import pandas as pd import random import math from keras import Sequential from keras.layers import Dense,Activation from keras ....

回答 1 投票 2

使用tensorflow引入了一个新层

我想在tensorflow中引入一个新层作为激活函数。但是,有些错误无法解决。这是新图层的代码。 def smooth_relu(张量):e = 0.15 alpha = ...

回答 1 投票 0

多臂强盗:当随机概率低于分配给强盗的成功概率时,为什么我们将奖励增加1

我试图了解使用python的多臂强盗问题。当随机概率小于成功时,我不断遇到返回值1(即奖励)的代码片段...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.