Q学习网格世界场景

Question

我正在从Q-learning Perspective研究GridWorld。我对以下问题有疑问：

1) In the grid-world example, rewards are positive for goals, negative
   for running into the edge of the world, and zero the rest of the time.
   Are the signs of these rewards important, or only the intervals
   between them?

Answer 1

请记住，Q值是预期值。通过选择最大化每个给定状态的Q函数的动作来提取策略。

a_best(s) = max_a Q(s,a)

请注意，您可以将常量值应用于所有Q值而不会影响策略。如果通过应用某个常数值来移动所有q值并不重要，则q值相对于max的关系仍然是相同的。事实上，您可以应用任何仿射变换（Q'= a * Q + b），您的决定不会改变。

Answer 2

只有相对价值才重要。假设你有以下奖励功能......

现在说我们为所有奖励添加一个常数C ...

我们可以证明，添加常数C将为所有状态的值添加另一个常数K，因此不会影响任何状态的相对值...

哪里...

这些价值始终保持一致，因此只有奖励之间的间隔很重要，而不是它们的标志。

然而，重要的是要注意，此规则不适用于所有情节任务。通常，该规则仅适用于剧集的长度固定的情况。对于每个剧集的长度由动作确定的任务（思考棋盘游戏），添加正常量可能会导致更长的学习间隔。

Q学习网格世界场景

问题描述投票：2回答：2

2个回答

最新问题

Q学习网格世界场景

问题描述 投票：2回答：2

2个回答

最新问题

问题描述投票：2回答：2