稳定基线的熵，平均奖励等

Question

我已经通过实现step, reset and render中的StableBaselines方法建立了一个自定义环境，但是我不知道如何打印一些图。

例如，我的业务代表（在离散操作空间中）执行操作的次数= 0、1、2等...

环境发出什么信号。

奖励如何移动？

我发现了有关results_plotter的信息，但找不到很多信息。

results_plotter.plot_results(["."], 10e6, results_plotter.X_TIMESTEPS, "Market rewards")

Answer 1

目前尚无预制工具。看看Monitor包装器及其跟踪情节奖励的方式。它将生成一个日志文件，您可以用来获取一些指标。这是你最好的选择。

[我建议您也考虑一下Tensorboard，因为它可能会提供一些实时信息。