如何在Q学习中使用MinMax树?

问题描述 投票:3回答:3

如何通过Q-Learning使用MinMax树?

我想实现一个Q-Learning连接四个代理,听说将MinMax树添加到其中会有所帮助。

artificial-intelligence reinforcement-learning game-ai
3个回答
2
投票

Q学习是一种Temporal difference learning算法。对于每个可能的状态(板),它都会学习可用动作(动作)的值。但是,它不适合与Minimax一起使用,因为Minimax算法需要评估函数来返回位置值,而不是该位置上的动作值。]

但是,可以使用时差方法来学习这种评估功能。最值得注意的是,杰拉德·特索罗(Gerald Tesauro)使用TD(λ)(“ TD lambda”)算法创建了具有人类竞争力的西洋双陆棋游戏程序TD-Gammon。他写了一篇描述该方法的文章,您可以在here中找到。

TD(λ)后来扩展到TDLeaf(λ),特别是为了更好地处理Minimax搜索。 TDLeaf(λ)例如已在国际象棋程序KnightCap中使用。您可以在this paper中阅读有关TDLeaf的信息。


0
投票

Minimax使您可以展望未来的许多动作,并以一定的方式发挥作用,以最大程度地提高在该时间段内得分的机会。这对Connect-4很有用,因为Connect-4几乎可以随时结束游戏,而且每回合可用的移动数不是很大。 Q-Learning将为您提供指导Minimax搜索的价值功能。


0
投票

Littman已将minimax与Q学习结合使用。因此在他的著名和开创性工作中提出了Minimix-Q学习算法Markov Games as a framework for multiagent reinforcement learning。他的工作是在多主体环境中进行零和游戏。后来,Hu&Wellman扩展了他的工作,以开发NashQ学习,您可以找到here

© www.soinside.com 2019 - 2024. All rights reserved.