资格跟踪：在线与离线λ-返回算法

我有一些问题，要弄清楚为什么你需要重新审视每个地平线上的一集中的所有时间步骤，从书中获得λ-返回算法的在线版本： Reinforcement Learning: An Introduction, 2nd Edition, Chapter 12, Sutton & Barto

这里，每个地平线h的所有权重向量W1，W2，...，Wh的序列从W0开始（来自前一集的结尾的权重）。然而，它们似乎不依赖于前一个范围的回报/权重，可以独立计算。在我看来，这只是为了澄清，你只能在剧集终止时的最终视野h = T来计算它们。这与离线版本的算法相同，实际的更新规则是：

毫不奇怪，我在19状态随机游走示例中得到的结果完全相同：

在书中提到，在线版本应该执行得更好一点，对于这种情况，它应该与True Online TD（λ）具有相同的结果。实现后者时，它确实优于离线版本，但我无法弄清楚简单和慢速的在线版本。

任何建议将不胜感激。

谢谢

1
投票

在我看来，这只是为了澄清，你只能在剧集终止时的最终视野h = T来计算它们。

这不是真的。在线λ回归算法的重点在于它是在线的：它在剧集中进行更新。当选择的动作由当前值估计确定时，这在控制设置中是至关重要的。即使在预测设置中，对早期视野进行的权重更新也会产生影响。

这是因为来自最后一个地平线的最终权重向量总是用于计算更新目标，即截断的lambda返回。因此w_1 ^ 1用于计算h = 2的所有目标，并且w_2 ^ 2用于计算h = 3的所有目标。因为目标是使用最新的权重向量计算的，所以它们通常更准确。

即使在预测设置中，在线lambda返回算法也优于离线版本，因为它使用的目标更好。