我已经通过实现step, reset and render
中的StableBaselines
方法建立了一个自定义环境,但是我不知道如何打印一些图。
例如,我的业务代表(在离散操作空间中)执行操作的次数= 0、1、2等...
环境发出什么信号。
奖励如何移动?
我发现了有关results_plotter的信息,但找不到很多信息。
results_plotter.plot_results(["."], 10e6, results_plotter.X_TIMESTEPS, "Market rewards")
目前尚无预制工具。看看Monitor包装器及其跟踪情节奖励的方式。它将生成一个日志文件,您可以用来获取一些指标。这是你最好的选择。
[我建议您也考虑一下Tensorboard,因为它可能会提供一些实时信息。