DDPG策略网络的输出可以是概率分布，而不是某个动作值吗？

问题描述投票：1回答：1

[我们知道DDPG是确定性策略梯度方法，其策略网络的输出应该是特定的动作。但是，一旦我尝试让策略网络的输出成为多个动作的概率分布，这意味着输出的长度不止一个，并且每个动作都有其自己的概率，它们的总和等于1。类似于随机策略梯度法中的方法，但计算梯度并以DDPG方式更新网络。最后，我发现结果看起来不错，但是我不明白为什么它可以工作，因为输出格式并不完全是DDPG所要求的。

reinforcement-learning