如何将UNO建模为POMDP

如何将UNO建模为POMDP

问题描述投票：1回答：1

我试图将UNO纸牌游戏建模为部分可观察的马尔可夫决策过程（POMDP）。我做了一点点研究，并得出结论，状态将是卡的数量，行动将是玩或从看不见的卡牌选择卡。我在制定国家转型和观察模型方面遇到了困难。我认为，观察模型将取决于过去的行动和观察（历史），但为此我需要放松马尔可夫假设。我想知道放松马尔可夫假设是更好的选择吗？另外，我应该如何形成状态和观察模型。提前谢谢。

artificial-intelligence

reinforcement-learning

markov-decision-process

1个回答

1
投票

我认为在POMDP中，状态应该仍然是“全部真相”（所有牌的位置），而过渡只是游戏规则（包括其他玩家的策略？！）。观察结果当然不应取决于历史，只取决于国家，否则你就违反了马尔可夫的假设。 POMDP的关键在于代理可以通过分析历史来获取有关当前状态的信息。不过，我不确定这是否适用于UNO。如果您知道已经播放了哪些卡片及其订单，您仍然可以使用历史记录获取信息吗？可能不是。不确定，但即使您使用专为POMDP设计的解决方案，将此游戏视为POMDP也许没有意义。

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1