我目前正在学习强化学习,并且已经建立了二十一点游戏。
游戏结束时有明显的奖励(支出),但是某些操作并不能直接导致奖励(按5分击中),即使最终结果是负数(失去手)。
我的问题是,这些行为应该得到什么奖励?
我可以为不会导致爆破的击中次数编写积极的奖励(赢得手的奖励的一部分),但是感觉我没有正确解决问题。
[此外,当我为获胜分配奖励时(在交牌结束后,我会更新对应于最后一个动作/状态对的q值),这似乎不是最优的,因为此动作可能不会直接导致获胜。
我认为另一种选择是将相同的最终奖励分配给序列中的所有动作/状态对,但是,即使导致失手,也应该鼓励某些动作(例如击中计数<10)。 >
注意:我的最终目标是将Deep-RL与LSTM结合使用,但我从q学习开始。
我目前正在学习强化学习,并且已经建立了二十一点游戏。游戏结束时有明显的奖励(支出),但是某些动作并不能直接带来奖励(...
我会说从简单开始,并使用游戏所规定的奖励。如果获胜,则输掉-1,则将获得+1的奖励。