用零初始化 Q 表是否会对强化学习中的第一个动作产生偏差?

问题描述 投票:0回答:1

我正在研究一个强化学习问题,我用零初始化了 Q 表。我注意到,当不同动作的所有 Q 值最初设置为零时,当多个动作具有相同的 Q 值时,arg-max 函数倾向于选择第一个动作。

这是否会对第一个操作产生潜在的偏见?用零初始化 Q 表是一个坏主意吗?如果是的话还应该做什么?

我尝试用零初始化 Q Table,它有效。然而,如果 Q 值仍然为零,则选择第一个操作。例如,在目标状态下,所有值都为零并且选择第一个操作。我的印象是,在目标状态下任何行动都是可以接受的,但我发现其他行动有不同的行为。如果我用零以外的值初始化它,它不会仍然给出相同的结果吗?

reinforcement-learning q-learning
1个回答
0
投票

问得好!是的,你是对的,这会引入一些偏见。

无论我们从什么初始值开始,算法都会收敛到最优解,因此从长远来看这不会成为太大的问题。

但这会影响收敛速度。举个例子,如果我们将初始值设置得较高,代理将被激励去探索更多,这将减慢收敛速度。

一般来说,将值初始化为 0 应该没问题,但我会让其他人给出更详细的答复,说明哪些值在实用上会更好(以及在什么情况下)

© www.soinside.com 2019 - 2024. All rights reserved.