reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域，涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

强化学习中策略梯度算法属于自由模型还是基于模型的方法？

强化学习算法是基于模型的方法，用于明确学习系统模型并将其用于解决MDP问题。基于模型的RL受到控制理论的强烈影响，并且...

reinforcement-learning markov-decision-process mdp

回答 1 投票 0

用越来越多的反馈更新Beta的alpha和beta参数

我正在根据大学项目的客户反馈对在线内容进行排名。为此，我将每个内容与先前的alpha和beta参数相关联，并根据...

machine-learning math statistics reinforcement-learning beta-distribution

回答 1 投票 4

Q学习二十一点，奖励功能？

我目前正在学习强化学习，并且已经建立了二十一点游戏。游戏结束时有明显的奖励（支出），但是某些动作并不能直接带来奖励（...

reinforcement-learning

回答 1 投票 0

有人可以举例说明部分可观察的马尔可夫决策过程（POMDP）吗？

[与某些示例的MDP有何不同？

reinforcement-learning markov-models markov-decision-process mdp

回答 1 投票 0

RL环境-OpenAI Gym Taxi-v2 vs Taxi-v3

健身房出租车-v2为折旧。我的Q学习工具仍可与Taxi-v3配合使用，但是对于某些重新使用环境，env.render（）在每个步骤都显示错误的滑行位置。无论如何，除了增加的墙外，什么是...

reinforcement-learning openai-gym taxi-v3

回答 1 投票 0

为什么匪徒问题在强化学习中也被称为单步/状态MDP？

[1步/状态MDP（马尔可夫决策过程）是什么意思？

machine-learning reinforcement-learning markov-decision-process mdp bandit

回答 2 投票 0

奖励矩阵中的状态和奖励是什么？

此代码：R = ql.matrix（[[0,0,0,0,1,0]，[0,0,0,1,0,1]，[0,0,100,1,0,0 ]，[0,1,1,0,1,0]，[1,0,0,1,0,0]，[0,1,0,0,0,0]]）来自：https： //github.com / ...

reinforcement-learning markov-chains markov-models

回答 1 投票 1

为什么DDPG / TD3会从旧数据中受益而PPO无法从中受益

关于深度强化学习，我有一个更笼统的问题。我总是有点挣扎，通行与不通政策的区别到底是什么。可以肯定地说，不政策是...

reinforcement-learning

回答 1 投票 0

呼叫月份名称

我需要帮助来改进我的代码。这只是给我的，我想了解更多。因此，我在课堂上有关于数组的作业。我已经完成编码并提交了，但是我真的想编码是...

java arrays reinforcement-learning

回答 1 投票 -1

强化学习的时间步长>>

对于我的第一个强化学习项目，我正在尝试训练特工玩实时游戏。这意味着环境会不断变化并进行更改，因此代理必须是...

python python-3.x time reinforcement-learning

回答 1 投票 0

PPO的梯度削波是否确实防止r（θ）超过1±ε？

在PPO中更新策略时，限幅部分将权重停止在r（θ）恰好为1±ε的确切值上，还是允许其超过该值，然后防止其继续前进...] >

algorithm machine-learning artificial-intelligence reinforcement-learning

回答 1 投票 0

强化学习中简单示例中的策略梯度算法中的目标网络是什么？

[它与常规网络有何不同->“在DDPG算法中，拓扑由每个网络的两个网络权重副本组成（（参与者：常规和目标）和（关键：常规和...

reinforcement-learning policy-gradient-descent

回答 1 投票 1

为什么用非线性函数逼近器随机化增强学习模型的样本以减少方差？

我已经阅读了DQN论文。在阅读DQN论文时，我发现使用非线性函数逼近器随机选择和学习样本可以减少RL中的差异。如果是这样，为什么是...

deep-learning reinforcement-learning nonlinear-functions dqn

回答 1 投票 0

梯度计算所需的变量之一已通过就地操作进行了修改：[torch.cuda.FloatTensor [16，1]]

嗨，我在运行时在loss.backward（）中出现此错误。我在Internet上搜索，并且在就地操作中使用和编辑张量时确保了该错误。我没有找到错误，也没有...

python pytorch reinforcement-learning tensor

回答 1 投票 0

用数学符号表示的强化学习中的连续状态空间和连续动作空间的例子是什么？

它们如何用数学符号表示？

python reinforcement-learning bandit

回答 1 投票 1

最佳强化学习者优化器

我正在为机器人应用程序运行SAC强化学习器，结果相当不错。我选择强化学习的原因之一是在该领域的学习能力，...

machine-learning reinforcement-learning

回答 2 投票 0

在张量流的占位符中向“ None +”添加特定尺寸是什么意思？

在状态尺寸变量下面的代码中-> state_dim被添加到（None，）。当我们已经将张量大小指定为可变的时，为什么还要添加它呢？状态= tf.placeholder（'float32'，（None，）...

python tensorflow reinforcement-learning

回答 1 投票 0

如何将2个数组编码为一个整数

我为一个简单的游戏建模，并且我有一个表示游戏状态的数组。有n个代理商。作为一种状态，我会跟踪代理人和游戏的最后获胜者每一轮的位置。...

python reinforcement-learning

回答 1 投票 -1

用于太空入侵者的LSTM网络RL（Keras）

我是强化学习的新手，并正在尝试使用LSTM进行太空入侵者特工的强化学习。我尝试使用本文中找到的网络，但仍然遇到麻烦：-如果我...

python machine-learning keras lstm reinforcement-learning

回答 2 投票 0

是否可以使用ray Tune搜索算法指定“ episodes_this_iter”？

我是编程/ ray的新手，并且有一个简单的问题，即在使用Ray Tune时可以指定哪些参数。特别是，ray tune文档说所有自动填充字段（...

reinforcement-learning ray rllib

回答 1 投票 0

reinforcement-learning 相关问题

最新问题