最佳强化学习者优化器

Question

我正在为机器人应用程序运行SAC强化学习器，结果相当不错。我选择强化学习的原因之一是该领域的学习能力，例如调整以适应机械变化，例如磨损的轮胎或车轮稍微偏离对准状态。

我的强化学习器在启动时恢复了上一次保存的权重和重播缓冲区，因此，每次我打开它时都不需要重新培训。但是，我最关心的是关于优化程序的问题。

自ADAM以来，优化程序已经走了很长一段路，但是我阅读的所有内容以及我看到的所有RL代码示例似乎仍然使用ADAM并具有固定的学习率。我想利用优化程序中的一些进步，例如一个周期的AdamW。但是，单周期优化器似乎不适合用于连续不断的现实世界中的强化学习问题：我认为这对于初始训练/校准来说是相当不错的，但是我希望最终学习率低会对机械变化产生太慢的反应。

曾以为我可能会采用一种单周期方法进行初始训练，并且如果错误变化表明发生了某些变化，则触发较小的单周期重新启动（也许重新启动的大小可能取决于大小错误更改）。

有人使用ADAM以外的优化程序进行了强化学习，或者对处理此类问题有任何建议？

Answer 1

我的初始测试表明优化器的细节及其超参数很重要，至少对于非策略技术而言。我没有机会尝试PPO或策略技术，因此很遗憾，我不能为那些人代言。

我一直在使用的非策略方法在细粒度的稳定性方面存在问题。换句话说，RL找到了最正确的解决方案，但是从没有真正追求完美的解决方案（或者如果找到了简短的解决方案，它就会逐渐消失）。我仍然怀疑优化器至少是部分原因。

最佳强化学习者优化器

问题描述投票：0回答：2

2个回答

最新问题

最佳强化学习者优化器

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2