我的问题是我用 c++ 使用 epsilon 贪婪策略编写了 Q 学习算法,现在我必须绘制 Q 值的学习曲线。我到底应该绘制什么,因为我有一个 11x5 Q 矩阵,所以我应该采用一个 Q 值并绘制其学习曲线,还是应该采用整个矩阵作为学习曲线,您能指导我吗? 谢谢你