有人可以举例说明部分可观察的马尔可夫决策过程（POMDP）吗？

问题描述投票：0回答：1

与某些示例的MDP有什么不同？

reinforcement-learning markov-models markov-decision-process mdp

1个回答

0
投票

如果系统的基本动力学是马尔可夫决策过程的动力学，但是代理无法观察到马尔可夫状态，则该设置称为POMDP。

如果给出当前的观察状态和动作，则观察状态被称为马尔可夫状态，有可能知道下一个状态。

例如，在乒乓球比赛中，如果坐席的可观察状态仅为当前帧，则不可能预测球下一步的前进方向。这将是一个POMDP。另一方面，如果可观察状态为例如最后5帧，则可以预测球的运动。这是一个MDP。请注意，在两种情况下，系统的基本动态都是MDP的动态，唯一改变的是代理可以观察到的动态。]

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.