政策梯度行动维度

Question

我理解政策梯度中的行动空间应该是离散的，比如 "向上"、"向左"、"什么都不做"。

我的环境是一个代理需要选择一个方向（360度），然后选择步数（10步）。

在这种环境下，会有3600个不同的动作在动作空间中供代理选择，这将需要大量的情节来训练代理，有点浪费资源。

你能告诉我如何处理这种情况吗？

能否将行动空间转化为连续的随机变量？

Answer 1

我认为对于策略梯度，你不必利用离散动作，但你可以使用连续变量.只有DQN（Deep Q NetworksDeep Q Learning）需要离散动作。(因为在那里你必须从行动可能性中选择一个。

连续变量在你的案例中可以是:网络输出1(值从0到1)乘以360=角度网络输出2(值从0到1)乘以10，投为整数=步数。