带有强化学习的多准则优化

Question

我正在研究系统的电源管理。我希望最小化的目标是功耗和平均延迟。我有一个目标函数，具有两个目标的线性加权总和：

C=w.P_avg+(1-w).L_avg,      where w belongs to (0,1)

我正在使用Q学习，通过改变权重w并为功耗和平均延迟设置不同的首选项来找到最佳的权衡曲线。我确实获得了一条最佳曲线。现在，我的目标是提供一个约束条件（例如，平均等待时间L_avg），从而调整/查找w的值以满足给定的标准。 Mine是一种在线算法，因此w的调整应以在线方式进行。

可以在这方面提供任何提示或建议吗？

Answer 1

社区中有一个多目标的强化学习分支。

主意是1：

将代理人家族分配给每个目标。将代理商在一个家族中获得的溶液与代理商从其他家族中获得的溶液进行比较。协商机制用于找到满足所有目标的折衷解决方案。

也有您可能感兴趣的论文：

通过强化学习进行多目标优化，以改善电力系统的调度和电压稳定性。

尽管我没有找到它的公共网址。

Answer 2

[如果有人仍然在关注这个问题，以下调查文件可能会有用：Roijers，D.M.，Vamplew，P.，Whiteson，S.，＆Dazeley，R.（2013年）。多目标顺序决策调查。人工智能研究杂志，48，67-113。