如果我有一个巫师,他有20个法术,每个法术都有不同的作用,有时是直接伤害,有时是致残,有时是保护等。 他要和10个兽人战斗,我想确定一个最佳的施法顺序,以尽快杀死兽人。
Q学习能帮助解决这个问题吗?
我可以先从20个法术的初始状态开始,然后下面的每个状态都是我还剩下哪个法术,最后的状态是巫师或兽人死亡。 这样做有意义吗,还是我想用错误的AI算法来做这件事?
在我看来很好。你要找的是改变状态的行动轨迹。即你的玩家和兽人的健康状况,以这样的方式,你得到一个特定状态发生的奖励。即杀死兽人。