稳定基线的熵,平均奖励等

问题描述 投票:0回答:1

我已经通过实现step, reset and render中的StableBaselines方法建立了一个自定义环境,但是我不知道如何打印一些图。

例如,我的业务代表(在离散操作空间中)执行操作的次数= 0、1、2等...

环境发出什么信号。

奖励如何移动?

我发现了有关results_plotter的信息,但找不到很多信息。

results_plotter.plot_results(["."], 10e6, results_plotter.X_TIMESTEPS, "Market rewards")
python openai-gym
1个回答
1
投票

目前尚无预制工具。看看Monitor包装器及其跟踪情节奖励的方式。它将生成一个日志文件,您可以用来获取一些指标。这是你最好的选择。

[我建议您也考虑一下Tensorboard,因为它可能会提供一些实时信息。

© www.soinside.com 2019 - 2024. All rights reserved.