DDPG策略网络的输出可以是概率分布,而不是某个动作值吗?

问题描述 投票:1回答:1

[我们知道DDPG是确定性策略梯度方法,其策略网络的输出应该是特定的动作。但是,一旦我尝试让策略网络的输出成为多个动作的概率分布,这意味着输出的长度不止一个,并且每个动作都有其自己的概率,它们的总和等于1。类似于随机策略梯度法中的方法,但计算梯度并以DDPG方式更新网络。最后,我发现结果看起来不错,但是我不明白为什么它可以工作,因为输出格式并不完全是DDPG所要求的。

reinforcement-learning policy-gradient-descent
1个回答
0
投票

如果您还包括相对于分布的渐变,它将起作用,否则,它只是偶然地起作用。

如果您做类似的事情

  • 概率= nn(s)
  • a = softmax(probs)
  • 然后通过softmax反向传播并返回到nn

然后是使用softmax分布的规则随机梯度,这在确定性梯度之前非常普遍(有时仍然使用。)>

© www.soinside.com 2019 - 2024. All rights reserved.