如何将UNO建模为POMDP

问题描述 投票:1回答:1

我试图将UNO纸牌游戏建模为部分可观察的马尔可夫决策过程(POMDP)。我做了一点点研究,并得出结论,状态将是卡的数量,行动将是玩或从看不见的卡牌选择卡。我在制定国家转型和观察模型方面遇到了困难。我认为,观察模型将取决于过去的行动和观察(历史),但为此我需要放松马尔可夫假设。我想知道放松马尔可夫假设是更好的选择吗?另外,我应该如何形成状态和观察模型。提前谢谢。

artificial-intelligence reinforcement-learning markov-decision-process
1个回答
1
投票

我认为在POMDP中,状态应该仍然是“全部真相”(所有牌的位置),而过渡只是游戏规则(包括其他玩家的策略?!)。观察结果当然不应取决于历史,只取决于国家,否则你就违反了马尔可夫的假设。 POMDP的关键在于代理可以通过分析历史来获取有关当前状态的信息。不过,我不确定这是否适用于UNO。如果您知道已经播放了哪些卡片及其订单,您仍然可以使用历史记录获取信息吗?可能不是。不确定,但即使您使用专为POMDP设计的解决方案,将此游戏视为POMDP也许没有意义。

© www.soinside.com 2019 - 2024. All rights reserved.