强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。
我目前正在为我的游戏学习PPO,并且掌握了最基本的知识。我看了几个YouTube视频,并试图了解一些代码,但有一些东西,我很困惑。所以,在我的...
我设置了一个非常简单的多代理环境,用于ray.rlib,我试图运行一个简单的PPO与随机策略训练场景的基线测试,如下所示: register_env("my_env",...)
Pytorch RuntimeError: tensors的元素0不需要grad,也没有grad_fn。
这段代码的构建是这样的。我的机器人拍了一张照片 一些计算机视觉模型计算出目标物体在照片中的起始位置。这个信息(x1和x2坐标)被传给......
在深度强化学习中,我是按每一个迷你批计算一个损失还是按迷你批中的每个条目计算一个损失?
刚接触神经网络和Pytorch。我有300个重放记忆在每个小批。我看到有人计算300个重放记忆的一个损失,但对我来说并没有什么意义。这300 ...
如果我有一个巫师,他有20个法术,每个法术的作用都不一样,有时是直接伤害,有时是致残,有时是保护等等。他和10个兽人战斗,我想确定......
Tensorflow 2:如何使用AdamOptimizer.minimum()更新权重?
在第一个Tensorflow中,可以不使用任何var_list而直接最小化(),但在Tensorflow 2中,必须要有一个var_list。在Tensorflow 2中,有一个var_listinclude是很重要的。在我的项目中,我想使用策略梯度算法来 ...
强化学习--当游戏的输入只有像素时,我们如何决定对代理的奖励?
我是RL新手,我做得最好的是openAI gym中的CartPole。在CartPole中,API会自动提供给定动作的奖励。我如何决定奖励,当我有......。
我理解政策梯度中的行动空间应该是离散的,比如 "向上"、"向左"、"什么都不做"。我的环境是一个代理需要选择一个方向(360度),然后选择数 ...
我正在尝试应用Rusu等人在https:/arxiv.orgpdf1511.06295.pdf中提出的一个想法,其内容是训练一个NN根据输入的类别改变输出层,即...
我正在学习深度强化学习。我在状态值方面有点困惑。是否可以在状态中使用动态值,或者我们必须使用离散值,并为每个值创建一个状态,我们 ...
所以,我想用keras创建一个AlphaZero的实现。但是,我对MCTS不是很了解。我对蒙特卡洛树搜索的理解和编码如下: class MCTS(object): ...
我刚刚开始使用强化学习,并试图使用OpenAI gym创建一个自定义环境。然而,我在尝试创建一个环境(有道路和交叉口)时陷入了困境......。
我创建了一个DQN,最大内存大小为100000。我有一个函数,如果它的大小大于最大大小,就会删除内存中最老的元素。当我运行它做200集时,我......
DQN中状态的值是否只需要为0到1例如状态=[0,0,0,1,1,1,0,1,0,0],也可以有一个状态的值大于1诶状态=[6,5,4,1,1,1,2,3,...。
我正在阅读Sutton和Barto的文章,想确认我是否清楚。对于关策略学习,我们是否可以把机器人在特定地形--比如说在沙地上--作为目标策略,但用机器人的策略......。
我想在python中创建一些RL算法,该算法将与代表股票价格的一个非常大的DataFrame交互。该算法将告诉我们。知道所有的价格和...
我刚刚开始接触强化学习和q-learning,我想尝试创建一个Tic-Tac-Toe AI。有了Q-Table,我需要找到棋盘的 "状态",我很难找到 ...
我试图在Openai的atari健身房环境中实现MCTS,这需要计划的能力:在环境中行动并将其恢复到以前的状态。我读到可以用 ...
在使用OpenAI gym时,用import gym导入库后,可以用env.action_space检查动作空间。但这只给出了动作空间的大小。我想知道的是...
我试图根据现有的Gym和Malmo例子创建一个简化的RL4J例子。给定的是一个正弦波,人工智能应该说,如果我们是在波的顶部,底部或其他地方(noop)。这个 ...