为什么DDPG / TD3会从旧数据中受益而PPO无法从中受益

问题描述 投票:0回答:1

关于深度强化学习,我有一个更笼统的问题。我总是有点挣扎,通行与不通政策的区别到底是什么。可以肯定地说,偏离策略是在轨迹采样过程中从不同的分布进行采样,而开启策略是将实际策略用于轨迹生成。或基于策略的策略无法从旧数据中受益,而基于策略的策略则可以。两者都没有真正回答,确切的区别是什么,而是告诉我输出。

据我所知,DDPG和PPO都是建立在A2C之上的,并同时训练演员和评论家。虽然通常使用观察到的下一个时间步长的奖励(可能使用一些注册进行多个步骤,但现在暂时忽略一个注册)和下一个时间步长的网络来根据MSE对评论者进行培训。我在这里没有看到政策外DDPG和政策上PPO之间的区别(TD3所做的略有不同,但由于其思想是相同的,因此目前已被忽略)。

在两种情况下,演员本身都有基于评论家产生的价值的损失函数。 PPO使用一定比例的策略来限制步长,而DDPG使用该策略来预测评论者计算出的值的动作。因此,两种方法(PPO和DDPG)在评论者和演员的损失函数中都使用了两种当前策略。

所以现在是我的实际问题:DDPG为什么能够从旧数据中受益,或者为什么PPO无法从旧数据中受益。可以说,PPO中政策的比例限制了政策之间的距离,因此需要新的数据。但是,与DDPG相比,A2C如何在策略上无法从旧数据中受益?

我的确理解Q学习与政策学习相比非政策学习的区别。但是我没有得到那些PG方法之间的区别。它是否仅依赖于DDPG是确定性的事实。 DDPG是否有任何政策外修正,从而能够从旧数据中获利?

[如果有人可以让我更加了解这些政策,我将非常高兴。

欢呼声

reinforcement-learning
1个回答
0
投票

PPO参与者批评目标函数基于通过在T个时间步上运行当前策略而获得的一组轨迹。更新策略后,从旧/过时策略生成的轨迹将不再适用。

DDPG / TD3对于每个演员/评论家更新仅需一个时间步长(通过Bellman方程),将当前的确定性策略应用于旧数据元组(s_t,a_t,r_t,s_t + 1)很简单]

© www.soinside.com 2019 - 2024. All rights reserved.