Q学习二十一点,奖励功能?

问题描述 投票:0回答:1

我目前正在学习强化学习,并且已经建立了二十一点游戏。

游戏结束时有明显的奖励(支出),但是某些操作并不能直接导致奖励(按5分击中),即使最终结果是负数(失去手)。

我的问题是,这些行为应该得到什么奖励?

我可以为不会导致爆破的击中次数编写积极的奖励(赢得手的奖励的一部分),但是感觉我没有正确解决问题。

[此外,当我为获胜分配奖励时(在交牌结束后,我会更新对应于最后一个动作/状态对的q值),这似乎不是最优的,因为此动作可能不会直接导致获胜。

我认为另一种选择是将相同的最终奖励分配给序列中的所有动作/状态对,但是,即使导致失手,也应该鼓励某些动作(例如击中计数<10)。 >

注意:我的最终目标是将Deep-RL与LSTM结合使用,但我从q学习开始。

我目前正在学习强化学习,并且已经建立了二十一点游戏。游戏结束时有明显的奖励(支出),但是某些动作并不能直接带来奖励(...

reinforcement-learning
1个回答
0
投票

我会说从简单开始,并使用游戏所规定的奖励。如果获胜,则输掉-1,则将获得+1的奖励。

© www.soinside.com 2019 - 2024. All rights reserved.