强化学习中状态的效用

强化学习中状态的效用

问题描述投票：0回答：1

在Artificial Intelligence A Modern Approach (第3版-Russell)一书中，我们有一个像这样的4*3世界：

通过一些我不明白的计算，我们为每个状态达到了这个实用程序（给定每个状态的 R(s)= -0.04 和 gamma = 1）：

我想实现这个世界。读过这本书（第 17 章）的人可以为我解释一下我如何计算这个世界上每个状态的效用吗？

utilities

reinforcement-learning

1个回答

0
投票

首先，您必须了解图 17.3 中状态 U(s) 的效用报告值适用于下面提出的确定性策略（顺便说一下，这是一个最优策略，但这并不重要）。如果您选择了其他政策，那么各州的效用将会不同。

给定我们的策略和选定的动作 a，U(s) 可以表示为当前状态的奖励加上下一个状态的预期贴现效用：

U(s) = R(s) + Σ _s' P(s'|s,a) γ U(s')

其中 P 是给定操作 a 时从 s 转换到 s' 的概率（实际上请记住，所选操作仅在 80% 的情况下才会真正执行）。

使用它，您可以为每个状态 s= 编写一个由 11 个方程组组成的系统。您必须求解系统的 11 个未知数 U(<1,1>),...U(<3,4>)，并且您已经知道 U<4,3> = +1 和 U<4,2> = -1。

状态 <3,3> 和 <3,2> 的计算示例：