政策梯度行动维度

问题描述 投票:0回答:1

我理解政策梯度中的行动空间应该是离散的,比如 "向上"、"向左"、"什么都不做"。

我的环境是一个代理需要选择一个方向(360度),然后选择步数(10步)。

在这种环境下,会有3600个不同的动作在动作空间中供代理选择,这将需要大量的情节来训练代理,有点浪费资源。

你能告诉我如何处理这种情况吗?

能否将行动空间转化为连续的随机变量?

machine-learning neural-network artificial-intelligence gradient reinforcement-learning
1个回答
0
投票

我认为对于策略梯度,你不必利用离散动作,但你可以使用连续变量.只有DQN(Deep Q NetworksDeep Q Learning)需要离散动作。(因为在那里你必须从行动可能性中选择一个。

连续变量在你的案例中可以是:网络输出1(值从0到1)乘以360=角度网络输出2(值从0到1)乘以10,投为整数=步数。

© www.soinside.com 2019 - 2024. All rights reserved.