为什么DDPG / TD3会从旧数据中受益而PPO无法从中受益

Question

关于深度强化学习，我有一个更笼统的问题。我总是有点挣扎，通行与不通政策的区别到底是什么。可以肯定地说，偏离策略是在轨迹采样过程中从不同的分布进行采样，而开启策略是将实际策略用于轨迹生成。或基于策略的策略无法从旧数据中受益，而基于策略的策略则可以。两者都没有真正回答，确切的区别是什么，而是告诉我输出。

据我所知，DDPG和PPO都是建立在A2C之上的，并同时训练演员和评论家。虽然通常使用观察到的下一个时间步长的奖励（可能使用一些注册进行多个步骤，但现在暂时忽略一个注册）和下一个时间步长的网络来根据MSE对评论者进行培训。我在这里没有看到政策外DDPG和政策上PPO之间的区别（TD3所做的略有不同，但由于其思想是相同的，因此目前已被忽略）。

在两种情况下，演员本身都有基于评论家产生的价值的损失函数。 PPO使用一定比例的策略来限制步长，而DDPG使用该策略来预测评论者计算出的值的动作。因此，两种方法（PPO和DDPG）在评论者和演员的损失函数中都使用了两种当前策略。

所以现在是我的实际问题：DDPG为什么能够从旧数据中受益，或者为什么PPO无法从旧数据中受益。可以说，PPO中政策的比例限制了政策之间的距离，因此需要新的数据。但是，与DDPG相比，A2C如何在策略上无法从旧数据中受益？

我的确理解Q学习与政策学习相比非政策学习的区别。但是我没有得到那些PG方法之间的区别。它是否仅依赖于DDPG是确定性的事实。 DDPG是否有任何政策外修正，从而能够从旧数据中获利？

[如果有人可以让我更加了解这些政策，我将非常高兴。

欢呼声

Answer 1

PPO参与者批评目标函数基于通过在T个时间步上运行当前策略而获得的一组轨迹。更新策略后，从旧/过时策略生成的轨迹将不再适用。

DDPG / TD3对于每个演员/评论家更新仅需一个时间步长（通过Bellman方程），将当前的确定性策略应用于旧数据元组（s_t，a_t，r_t，s_t + 1）很简单]

为什么DDPG / TD3会从旧数据中受益而PPO无法从中受益

问题描述投票：0回答：1

1个回答

最新问题

为什么DDPG / TD3会从旧数据中受益而PPO无法从中受益

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1