为什么匪徒问题在强化学习中也被称为单步/状态MDP?

问题描述 投票:0回答:2

[1步/状态MDP(马尔可夫决策过程)是什么意思?

machine-learning reinforcement-learning markov-decision-process mdp bandit
2个回答
1
投票

在强盗中,过去的杠杆作用不会影响杠杆的输出或奖励。

奖励仅取决于拉动哪个杠杆,而过去则一无所获。

所以只有一个状态。


0
投票

让我们考虑一个n动作1状态MDP。无论您采取哪种行动,您都将保持相同的状态。但是,您将获得的奖励仅取决于您采取的行动。如果您希望在这种情况下最大化长期回报,则只需判断n可用选项(操作)中哪一个最好。

这正是强盗问题所在。

© www.soinside.com 2019 - 2024. All rights reserved.