强化学习中策略梯度算法属于自由模型还是基于模型的方法?

问题描述 投票:0回答:1

强化学习算法是基于模型的方法,用于明确学习系统模型并将其用于解决MDP问题。基于模型的RL受到控制理论的强烈影响,并且经常被解释在不同的学科方面。这些方法包括流行的算法,例如Dyna [Sutton 1991],Q-迭代[Busoniu等人。 2010],政策梯度(PG)[Williams 1992]等。

无模型方法会忽略模型,而只是专注于直接从与环境的交互中找出值函数。为此,这些方法严重依赖于采样和观察。因此,他们不需要了解系统的内部工作原理。这些方法的一些示例是Q学习[Krose 1995],SARSA [Rummery和Niranjan 1994]和Actor-Critic [Konda和Tsitsiklis 1999]。

[其他写入政策梯度的地方均未提供模型。作为演员批评家,有人可以清除它的困惑也是策略渐变算法的一部分吗?

reinforcement-learning markov-decision-process mdp
1个回答
1
投票

Policy Gradient算法是无模型的。

在基于模型的算法中,代理可以访问或了解环境的转换函数,F(状态,动作)=奖励,next_state。这里的转移函数可以是确定性的,也可以是随机的。

换句话说,在基于模型的算法中,如果执行特定的操作(例如,在本文中,Model Based Reinforcement Learning for Atari),则代理会预测环境将会发生什么。或者,代理可以根据问题的框架来使用转换功能(例如,在AlphaGo中,代理可以使用Go板的转换功能)。

在策略梯度算法中,代理具有用于预测要采取的操作的策略网络和用于预测当前状态的值的价值网络。这些网络都无法预测环境的过渡功能。因此,它被认为是无模型的。

您可能还会发现OpenAI Spinning Up's taxonomy diagram有用。

© www.soinside.com 2019 - 2024. All rights reserved.