reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

强化学习中策略梯度算法属于自由模型还是基于模型的方法?

强化学习算法是基于模型的方法,用于明确学习系统模型并将其用于解决MDP问题。基于模型的RL受到控制理论的强烈影响,并且...

回答 1 投票 0

用越来越多的反馈更新Beta的alpha和beta参数

我正在根据大学项目的客户反馈对在线内容进行排名。为此,我将每个内容与先前的alpha和beta参数相关联,并根据...

回答 1 投票 4

Q学习二十一点,奖励功能?

我目前正在学习强化学习,并且已经建立了二十一点游戏。游戏结束时有明显的奖励(支出),但是某些动作并不能直接带来奖励(...

回答 1 投票 0


RL环境-OpenAI Gym Taxi-v2 vs Taxi-v3

健身房出租车-v2为折旧。我的Q学习工具仍可与Taxi-v3配合使用,但是对于某些重新使用环境,env.render()在每个步骤都显示错误的滑行位置。无论如何,除了增加的墙外,什么是...

回答 1 投票 0


奖励矩阵中的状态和奖励是什么?

此代码:R = ql.matrix([[0,0,0,0,1,0],[0,0,0,1,0,1],[0,0,100,1,0,0 ],[0,1,1,0,1,0],[1,0,0,1,0,0],[0,1,0,0,0,0]])来自:https: //github.com / ...

回答 1 投票 1

为什么DDPG / TD3会从旧数据中受益而PPO无法从中受益

关于深度强化学习,我有一个更笼统的问题。我总是有点挣扎,通行与不通政策的区别到底是什么。可以肯定地说,不政策是...

回答 1 投票 0

呼叫月份名称

我需要帮助来改进我的代码。这只是给我的,我想了解更多。因此,我在课堂上有关于数组的作业。我已经完成编码并提交了,但是我真的想编码是...

回答 1 投票 -1

强化学习的时间步长>>

对于我的第一个强化学习项目,我正在尝试训练特工玩实时游戏。这意味着环境会不断变化并进行更改,因此代理必须是...

回答 1 投票 0

PPO的梯度削波是否确实防止r(θ)超过1±ε?

在PPO中更新策略时,限幅部分将权重停止在r(θ)恰好为1±ε的确切值上,还是允许其超过该值,然后防止其继续前进...] >

回答 1 投票 0

强化学习中简单示例中的策略梯度算法中的目标网络是什么?

[它与常规网络有何不同->“在DDPG算法中,拓扑由每个网络的两个网络权重副本组成((参与者:常规和目标)和(关键:常规和...

回答 1 投票 1

为什么用非线性函数逼近器随机化增强学习模型的样本以减少方差?

我已经阅读了DQN论文。在阅读DQN论文时,我发现使用非线性函数逼近器随机选择和学习样本可以减少RL中的差异。如果是这样,为什么是...

回答 1 投票 0

梯度计算所需的变量之一已通过就地操作进行了修改:[torch.cuda.FloatTensor [16,1]]

嗨,我在运行时在loss.backward()中出现此错误。我在Internet上搜索,并且在就地操作中使用和编辑张量时确保了该错误。我没有找到错误,也没有...

回答 1 投票 0


最佳强化学习者优化器

我正在为机器人应用程序运行SAC强化学习器,结果相当不错。我选择强化学习的原因之一是在该领域的学习能力,...

回答 2 投票 0

在张量流的占位符中向“ None +”添加特定尺寸是什么意思?

在状态尺寸变量下面的代码中-> state_dim被添加到(None,)。当我们已经将张量大小指定为可变的时,为什么还要添加它呢?状态= tf.placeholder('float32',(None,)...

回答 1 投票 0

如何将2个数组编码为一个整数

我为一个简单的游戏建模,并且我有一个表示游戏状态的数组。有n个代理商。作为一种状态,我会跟踪代理人和游戏的最后获胜者每一轮的位置。...

回答 1 投票 -1

用于太空入侵者的LSTM网络RL(Keras)

我是强化学习的新手,并正在尝试使用LSTM进行太空入侵者特工的强化学习。我尝试使用本文中找到的网络,但仍然遇到麻烦:-如果我...

回答 2 投票 0

是否可以使用ray Tune搜索算法指定“ episodes_this_iter”?

我是编程/ ray的新手,并且有一个简单的问题,即在使用Ray Tune时可以指定哪些参数。特别是,ray tune文档说所有自动填充字段(...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.