用零初始化 Q 表是否会对强化学习中的第一个动作产生偏差？

问题描述投票：0回答：1

我正在研究一个强化学习问题，我用零初始化了 Q 表。我注意到，当不同动作的所有 Q 值最初设置为零时，当多个动作具有相同的 Q 值时，arg-max 函数倾向于选择第一个动作。

这是否会对第一个操作产生潜在的偏见？用零初始化 Q 表是一个坏主意吗？如果是的话还应该做什么？

我尝试用零初始化 Q Table，它有效。然而，如果 Q 值仍然为零，则选择第一个操作。例如，在目标状态下，所有值都为零并且选择第一个操作。我的印象是，在目标状态下任何行动都是可以接受的，但我发现其他行动有不同的行为。如果我用零以外的值初始化它，它不会仍然给出相同的结果吗？

reinforcement-learning

q-learning

1个回答

0
投票

问得好！是的，你是对的，这会引入一些偏见。

无论我们从什么初始值开始，算法都会收敛到最优解，因此从长远来看这不会成为太大的问题。

但这会影响收敛速度。举个例子，如果我们将初始值设置得较高，代理将被激励去探索更多，这将减慢收敛速度。

一般来说，将值初始化为 0 应该没问题，但我会让其他人给出更详细的答复，说明哪些值在实用上会更好（以及在什么情况下）