为什么匪徒问题在强化学习中也被称为单步/状态MDP？

问题描述投票：0回答：2

[1步/状态MDP（马尔可夫决策过程）是什么意思？

machine-learning reinforcement-learning markov-decision-process mdp bandit

2个回答

1
投票

在强盗中，过去的杠杆作用不会影响杠杆的输出或奖励。

奖励仅取决于拉动哪个杠杆，而过去则一无所获。

所以只有一个状态。

0
投票

让我们考虑一个n动作1状态MDP。无论您采取哪种行动，您都将保持相同的状态。但是，您将获得的奖励仅取决于您采取的行动。如果您希望在这种情况下最大化长期回报，则只需判断n可用选项（操作）中哪一个最好。

这正是强盗问题所在。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.