在强化学习探索/开发的最佳实践

问题描述 投票:1回答:1

我的问题如下我在PyTorch DQN教程中的代码检查,但当时指的是强化学习一般:什么是强化学习最佳勘探/开采的最佳实践?

在DQN教程中,steps_done变量是一个全局变量,并且EPS_DECAY = 200。这意味着:后128步,的ε-阈值= 0.500;后889步,的ε-阈值= 0.0600;和经过1500个步骤,的ε-阈值= 0.05047。

在早情节可能非常短,任务相当简单 - - 在其中需要远远更多的探索更复杂的问题,但怎么样,这可能为CartPole问题教程特色工作?例如,如果我们有一个问题,拥有40000个集,其中的每一个有万个时间步长,怎么会我们成立了小量贪婪探索政策?有没有在RL工作中使用的一些经验法则?

预先感谢您的任何帮助。

pytorch reinforcement-learning
1个回答
2
投票

好了,对于我想这是最好使用基于步骤哪些更新小量线性退火的ε-贪婪策略:


EXPLORE = 3000000   #how many time steps to play
FINAL_EPSILON = 0.001 # final value of epsilon
INITIAL_EPSILON = 1.0# # starting value of epsilon

if epsilon > FINAL_EPSILON:
            epsilon -= (INITIAL_EPSILON - FINAL_EPSILON) / EXPLORE


© www.soinside.com 2019 - 2024. All rights reserved.