为什么要连续采取行动?

问题描述 投票:1回答:1

在Deep Reinforcement Learning中,使用连续动作空间,为什么在代理执行之前将动作钳制在一起似乎是常见做法?

例子:

OpenAI健身房山车https://github.com/openai/gym/blob/master/gym/envs/classic_control/continuous_mountain_car.py#L57

Unity 3DBall https://github.com/Unity-Technologies/ml-agents/blob/master/unity-environment/Assets/ML-Agents/Examples/3DBall/Scripts/Ball3DAgent.cs#L29

信息不会丢失吗?就像模型为速度(移动)输出+10一样,然后将其钳制为+1,动作本身表现得相当离散(仅仅是关于它的执行)。对于细粒度的运动,将输出乘以0.1这样的输出会更有意义吗?

deep-learning reinforcement-learning continuous
1个回答
0
投票

这可能只是为了强制执行代理可以执行的操作的约束。也许代理商希望推出一项将速度提高1,000,000的行动。但如果代理商是一辆自动驾驶汽车,发动机较弱,最多可加速1个单位,我们并不关心代理人是否会假装更多的单位加速。汽车的发动机功能有限。

© www.soinside.com 2019 - 2024. All rights reserved.