强化学习中状态的效用

问题描述 投票:0回答:1

在Artificial Intelligence A Modern Approach (第3版-Russell)一书中,我们有一个像这样的4*3世界:

通过一些我不明白的计算,我们为每个状态达到了这个实用程序(给定每个状态的 R(s)= -0.04 和 gamma = 1):

我想实现这个世界。读过这本书(第 17 章)的人可以为我解释一下我如何计算这个世界上每个状态的效用吗?

utilities reinforcement-learning
1个回答
0
投票

首先,您必须了解图 17.3 中状态 U(s) 的效用报告值适用于下面提出的确定性策略(顺便说一下,这是一个最优策略,但这并不重要)。如果您选择了其他政策,那么各州的效用将会不同。

enter image description here

给定我们的策略和选定的动作 a,U(s) 可以表示为当前状态的奖励加上下一个状态的预期贴现效用:

U(s) = R(s) + Σ s' P(s'|s,a) γ U(s')

其中 P 是给定操作 a 时从 s 转换到 s' 的概率(实际上请记住,所选操作仅在 80% 的情况下才会真正执行)。

使用它,您可以为每个状态 s= 编写一个由 11 个方程组组成的系统。您必须求解系统的 11 个未知数 U(<1,1>),...U(<3,4>),并且您已经知道 U<4,3> = +1 和 U<4,2> = -1。

状态 <3,3> 和 <3,2> 的计算示例:

enter image description here

© www.soinside.com 2019 - 2024. All rights reserved.