关于 DQN 模型中的奖励政策

问题描述 投票:0回答:1

我想知道 DQN 模型中的奖励政策。我正在学习如何使用 DQN 来解决问题。所以,我在一个我已经知道答案的确定性案例中应用 DQN。

我正在开发一个 DQN 模型,它可以找到最佳阈值以获得分类 ML 模型中的最大度量,例如,找到最大化 F1 分数的最佳阈值。 在这个例子中,我的状态是范围 (0,1) 中的任何值,我的动作在每个状态下减少或增加 0.01。

所以,我尝试了几种设置奖励策略的方法,并且根据我想要最大化的指标找到了一种新方法。例如,如果下一个状态的 F1 分数大于当前状态的 F1 分数,则奖励为 1。

我的主要问题是这种计算奖励的方法是最优的还是正确的?我在想我可能会通过根据下一个和当前状态计算奖励来违反 DQN 模型的任何原则。

就这些啦,希望大家能回答我的问题。谢谢大家

machine-learning artificial-intelligence reinforcement-learning dqn
1个回答
0
投票

其实是DQN一个很有趣的应用!

你的问题的答案比较笼统:可以,只要你对agent的表现满意。除了反复试验之外别无他法。如果您想知道理论上的正确性,那么是的,您的方法是合法的。

不过,我个人会稍微改一下。您的状态可以用当前阈值和当前 ML 分数扩展,例如 F1。通过这样做,您可以让您的代理人全面了解环境。

关于奖励功能,我觉得应该更灵活一些。一般来说,如果 ML 模型的性能由于阈值的变化而提高,则给予正奖励;如果 ML 模型的性能下降,则给予负奖励。然而,奖励的价值应该与性能的提高或降低成正比,并且可以标准化以促进训练过程的收敛和稳定性。

祝你研究顺利!

© www.soinside.com 2019 - 2024. All rights reserved.