我们如何评估策略梯度方法中回报中的每项奖励?

问题描述 投票:0回答:2

StackOverflow 社区您好,

我对强化学习中的策略梯度方法有疑问。

在策略梯度方法中,我们根据该步骤之后的回报(即总奖励)来增加/减少操作的对数概率。因此,如果我们的回报率很高,我们就会增加回报,但我在这一步遇到了问题。

假设我们的回报有三项奖励。虽然这三个奖励的总和很高,但是第二个奖励真的很糟糕。

我们如何处理这个问题?我们如何分别评估每项奖励?这种策略梯度方法有替代版本吗?

reinforcement-learning policy-gradient-descent
2个回答
0
投票

这是一个多目标问题,其中奖励不是标量而是向量。根据定义,不存在经典意义上的单一最优策略,但存在一组帕累托最优策略,即,您无法在其中执行更好的操作。一个目标(例如,第一个奖励的最大总和)不会在另一个目标(其他奖励的最大总和)上丢失一些东西。 处理多目标问题的方法有很多,包括优化(通常是遗传算法)和强化学习。 天真地,您可以通过线性加权对奖励进行标量化,但这确实效率很低。更复杂的方法学习策略参数空间中的流形(例如this)。


0
投票

兄弟,您的实现中出现了问题,如果您正在研究分类问题,您将在输出中使用 softmax 激活。所以你会考虑最大概率,对吗?或奖励中的最大奖励。奖励总和将等于 1。 如果我不明白您的疑问,请提供更多信息,以便我更好地帮助您

© www.soinside.com 2019 - 2024. All rights reserved.