我们如何评估策略梯度方法中回报中的每项奖励？

问题描述投票：0回答：2

StackOverflow 社区您好，

我对强化学习中的策略梯度方法有疑问。

在策略梯度方法中，我们根据该步骤之后的回报（即总奖励）来增加/减少操作的对数概率。因此，如果我们的回报率很高，我们就会增加回报，但我在这一步遇到了问题。

假设我们的回报有三项奖励。虽然这三个奖励的总和很高，但是第二个奖励真的很糟糕。

我们如何处理这个问题？我们如何分别评估每项奖励？这种策略梯度方法有替代版本吗？

reinforcement-learning

policy-gradient-descent

2个回答

0
投票

这是一个多目标问题，其中奖励不是标量而是向量。根据定义，不存在经典意义上的单一最优策略，但存在一组帕累托最优策略，即，您无法在其中执行更好的操作。一个目标（例如，第一个奖励的最大总和）不会在另一个目标（其他奖励的最大总和）上丢失一些东西。处理多目标问题的方法有很多，包括优化（通常是遗传算法）和强化学习。天真地，您可以通过线性加权对奖励进行标量化，但这确实效率很低。更复杂的方法学习策略参数空间中的流形（例如this）。

0
投票

兄弟，您的实现中出现了问题，如果您正在研究分类问题，您将在输出中使用 softmax 激活。所以你会考虑最大概率，对吗？或奖励中的最大奖励。奖励总和将等于 1。如果我不明白您的疑问，请提供更多信息，以便我更好地帮助您

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2