[我们知道DDPG是确定性策略梯度方法,其策略网络的输出应该是特定的动作。但是,一旦我尝试让策略网络的输出成为多个动作的概率分布,这意味着输出的长度不止一个,并且每个动作都有其自己的概率,它们的总和等于1。类似于随机策略梯度法中的方法,但计算梯度并以DDPG方式更新网络。最后,我发现结果看起来不错,但是我不明白为什么它可以工作,因为输出格式并不完全是DDPG所要求的。
如果您还包括相对于分布的渐变,它将起作用,否则,它只是偶然地起作用。
如果您做类似的事情
然后是使用softmax分布的规则随机梯度,这在确定性梯度之前非常普遍(有时仍然使用。)>