Q-learning 中的学习曲线

问题描述 投票:0回答:2

我的问题是我用 c++ 使用 epsilon 贪婪策略编写了 Q 学习算法,现在我必须绘制 Q 值的学习曲线。我到底应该绘制什么,因为我有一个 11x5 Q 矩阵,所以我应该采用一个 Q 值并绘制其学习曲线,还是应该采用整个矩阵作为学习曲线,您能指导我吗? 谢谢你

c++ reinforcement-learning q-learning
2个回答
0
投票
RL 中的学习曲线通常是随时间变化的“回报”图,而不是 Q 损失或类似的东西。因此,您应该运行您的环境,计算总奖励(又称回报)并在相应的时间绘制它。

对于 Q-learning 中的学习曲线,通常会打印每集的累积奖励。通常,您会在剧集中的每个时间步累积奖励,并在剧集完成后打印或可视化累积奖励。

0
投票

© www.soinside.com 2019 - 2024. All rights reserved.