我需要为我的双边市场交易环境更改mu sb3代理的政策吗

问题描述 投票:0回答:1

我正在尝试在我的比特币交易环境中培训代理。我尝试了 finrl 库,但它没有任何良好的加密环境。

所以我尝试编写一个用于交易比特币的双向市场环境,可以在 stable_baselines3 算法(如 a2c 和 ppo)上进行训练。操作是 -1 和 1 之间的数字,因此小于零是卖出,零是持有,大于零是买.

问题是我在我的环境中有一些逻辑,比如如果有一个买入头寸,你就不能开一个卖出头寸,或者如果有超过 5 个买入或卖出头寸,你就不能开更多头寸。这种逻辑让智能体知道最好是坚持住。

火车进程看起来不错,我的意思是我可以看到代理正在使用的不同操作,但在测试中它只是 0 。

我检查了 sb3 在 ppo 和 a2c 上使用的策略及其 mlpolicy (ActorCricitPolicy),我想知道是否需要更改策略。我不会撒谎,我看到了政策代码,但什么也不明白:-) .

抱歉我的英语不好。

我绑定了不同的算法,例如 a2c 和 ppo 和 ddpg 和 sac 和 td3 。

我尝试调整奖励功能。奖励基于我们在每个仓位结束时赚取的利润。

我在代理中尝试了不同的 kwargs 。

我尝试了不同的时间范围数据集(1 分钟,5 分钟,1 小时,...)

python reinforcement-learning bitcoin trading finrl
1个回答
0
投票

这个不饱和的程序会发生什么

© www.soinside.com 2019 - 2024. All rights reserved.