我想在Python中尝试强化学习。但我想用自己的州和奖励创建一个自定义环境。
可能我想在这里使用时间序列数据(不过像股票一样)。我希望我的系统在给定环境的情况下根据时间学习行为。
所以我首先要创建一个自定义环境,有人可以帮助我吗?
OPEN-AI健身房环境注册过程可以找到here。
请通过this示例自定义环境和this stackoverflow问题获取更多信息。
如果你想让代理人学习w.r.t.时间然后包括时间步作为您所在州的变量。然后,您的代理人将能够区分两个与时间步长不同的不同状态。