[1步/状态MDP(马尔可夫决策过程)是什么意思?
在强盗中,过去的杠杆作用不会影响杠杆的输出或奖励。
奖励仅取决于拉动哪个杠杆,而过去则一无所获。
所以只有一个状态。
让我们考虑一个n动作1状态MDP。无论您采取哪种行动,您都将保持相同的状态。但是,您将获得的奖励仅取决于您采取的行动。如果您希望在这种情况下最大化长期回报,则只需判断n可用选项(操作)中哪一个最好。
这正是强盗问题所在。