与某些示例的MDP有什么不同?
如果系统的基本动力学是马尔可夫决策过程的动力学,但是代理无法观察到马尔可夫状态,则该设置称为POMDP。
如果给出当前的观察状态和动作,则观察状态被称为马尔可夫状态,有可能知道下一个状态。
例如,在乒乓球比赛中,如果坐席的可观察状态仅为当前帧,则不可能预测球下一步的前进方向。这将是一个POMDP。另一方面,如果可观察状态为例如最后5帧,则可以预测球的运动。这是一个MDP。请注意,在两种情况下,系统的基本动态都是MDP的动态,唯一改变的是代理可以观察到的动态。]