如何获得RL中的Q值-DDQN

问题描述 投票:0回答:1

我不确定如何获取DDQN的Q值。

DQN是普通网络,TAR是目标网络。

    q_values = self.DQN.predict(c_states) # DQN batch predict Q on states
    dqn_next = self.DQN.predict(n_states) # DQN batch predict Q on next_states
    tar_next = self.TAR.predict(n_states) # TAR batch predict Q on next_states

我主要找到2个版本:

第1版:

q_values[i][actions[i]] = (rewards[i] + (GAMMA * np.amax(tar_next[i])))

第2版:

act = np.argmax(dqn_next[i])
q_values[i][actions[i]] = (rewards[i] + (GAMMA * tar_next[i][act]))

哪个是正确的?为什么?

第1版链接:

https://github.com/keon/deep-q-learning/blob/master/ddqn.py

https://pythonprogramming.net/training-deep-q-learning-dqn-reinforcement-learning-python-tutorial

第2版链接:

https://pylessons.com/CartPole-DDQN/

https://github.com/germain-hug/Deep-RL-Keras/blob/master/DDQN/ddqn.py

https://github.com/rlcode/reinforcement-learning/blob/master/3-atari/1-breakout/breakout_ddqn.py

https://github.com/rlcode/reinforcement-learning/blob/master/2-cartpole/2-double-dqn/cartpole_ddqn.py

https://jaromiru.com/2016/11/07/lets-make-a-dqn-double-learning-and-prioritized-experience-replay/


编辑:非常感谢,以澄清这一点

SARSA: 
q_values[i][actions[i]] = (rewards[i] + (GAMMA * np.amax(tar_next[i])))

Q-learning: 
act = np.argmax(dqn_next[i])
q_values[i][actions[i]] = (rewards[i] + (GAMMA * tar_next[i][act]))

非常有用的链接,在我的列表上可以找到有关SARSA的信息,但是稍后;)...

python deep-learning neural-network reinforcement-learning
1个回答
1
投票

这是Q学习(具有最大运算符的版本)与SARSA(无最大值)。

简而言之,您使用电子贪婪策略收集样本:这是您的行为(或探索)策略。您要学习的策略称为“目标”,可以不同。通过Q学习,您将使用max运算符,因此将根据贪婪(目标)策略选择目标。这被称为非策略学习,因为您将通过其他策略(行为)收集的样本学习策略(目标)。对于SARSA,没有最大值,因此在实践中,您仅使用行为策略选择的样本中的操作。这是按策略执行的,因为目标和行为是相同的。

哪个人更喜欢取决于您,但我认为Q学习更为普遍(DQN使用Q学习)。

有关此内容的更多信息

What is the difference between Q-learning and SARSA?

Are Q-learning and SARSA with greedy selection equivalent?

https://stats.stackexchange.com/questions/184657/what-is-the-difference-between-off-policy-and-on-policy-learning

http://incompleteideas.net/book/RLbook2018.pdf

© www.soinside.com 2019 - 2024. All rights reserved.