有人可以举例说明部分可观察的马尔可夫决策过程(POMDP)吗?

问题描述 投票:0回答:1

与某些示例的MDP有什么不同?

reinforcement-learning markov-models markov-decision-process mdp
1个回答
0
投票

如果系统的基本动力学是马尔可夫决策过程的动力学,但是代理无法观察到马尔可夫状态,则该设置称为POMDP。

如果给出当前的观察状态和动作,则观察状态被称为马尔可夫状态,有可能知道下一个状态。

例如,在乒乓球比赛中,如果坐席的可观察状态仅为当前帧,则不可能预测球下一步的前进方向。这将是一个POMDP。另一方面,如果可观察状态为例如最后5帧,则可以预测球的运动。这是一个MDP。请注意,在两种情况下,系统的基本动态都是MDP的动态,唯一改变的是代理可以观察到的动态。]

© www.soinside.com 2019 - 2024. All rights reserved.