StackOverflow 社区您好,
我对强化学习中的策略梯度方法有疑问。
在策略梯度方法中,我们根据该步骤之后的回报(即总奖励)来增加/减少操作的对数概率。因此,如果我们的回报率很高,我们就会增加回报,但我在这一步遇到了问题。
假设我们的回报有三项奖励。虽然这三个奖励的总和很高,但是第二个奖励真的很糟糕。
我们如何处理这个问题?我们如何分别评估每项奖励?这种策略梯度方法有替代版本吗?
兄弟,您的实现中出现了问题,如果您正在研究分类问题,您将在输出中使用 softmax 激活。所以你会考虑最大概率,对吗?或奖励中的最大奖励。奖励总和将等于 1。 如果我不明白您的疑问,请提供更多信息,以便我更好地帮助您