关于 DQN 模型中的奖励政策

我想知道 DQN 模型中的奖励政策。我正在学习如何使用 DQN 来解决问题。所以，我在一个我已经知道答案的确定性案例中应用 DQN。

我正在开发一个 DQN 模型，它可以找到最佳阈值以获得分类 ML 模型中的最大度量，例如，找到最大化 F1 分数的最佳阈值。在这个例子中，我的状态是范围 (0,1) 中的任何值，我的动作在每个状态下减少或增加 0.01。

所以，我尝试了几种设置奖励策略的方法，并且根据我想要最大化的指标找到了一种新方法。例如，如果下一个状态的 F1 分数大于当前状态的 F1 分数，则奖励为 1。

我的主要问题是这种计算奖励的方法是最优的还是正确的？我在想我可能会通过根据下一个和当前状态计算奖励来违反 DQN 模型的任何原则。

就这些啦，希望大家能回答我的问题。谢谢大家

0
投票

其实是DQN一个很有趣的应用！

你的问题的答案比较笼统：可以，只要你对agent的表现满意。除了反复试验之外别无他法。如果您想知道理论上的正确性，那么是的，您的方法是合法的。

不过，我个人会稍微改一下。您的状态可以用当前阈值和当前 ML 分数扩展，例如 F1。通过这样做，您可以让您的代理人全面了解环境。

关于奖励功能，我觉得应该更灵活一些。一般来说，如果 ML 模型的性能由于阈值的变化而提高，则给予正奖励；如果 ML 模型的性能下降，则给予负奖励。然而，奖励的价值应该与性能的提高或降低成正比，并且可以标准化以促进训练过程的收敛和稳定性。

祝你研究顺利！