使用稳定基线的模仿学习预训练模型3

问题描述 投票:0回答:1

我一直在尝试找出一种使用 Stable-baselines3 预训练模型的方法。

在 Stable-baseline(在 Tensorflow 1.X 上运行的版本)的原始文档中,这似乎是一件容易的事:

    from stable_baselines import PPO2
    
    from stable_baselines.gail import ExpertDataset
    
    dataset = ExpertDataset(expert_path='expert_cartpole.npz', traj_limitation=1, batch_size=128)
    
    model = PPO2('MlpPolicy', 'CartPole-v1', verbose=1)
    
    \# Pretrain the PPO2 model
    
    model.pretrain(dataset, n_epochs=1000)

问题是,没有“from stable_baselines3.gail import ExpertDataset”

基本上我想做的是我想使用特定算法创建一个 .npz 文件来生成观察、奖励、动作,然后将其传递给 RL 代理。

我从这个文档中找到了原始代码:

https://readthedocs.org/projects/stable-baselines/downloads/pdf/master/

2023 年 3 月 4 日更新: 我发现这个链接解释了这是如何在稳定基线上完成的: https://stable-baselines.readthedocs.io/en/master/guide/pretrain.html 我想在 SB3 上做同样的事情。

python machine-learning reinforcement-learning openai-gym stable-baselines
1个回答
0
投票

您可以使用

imitation
,它建立在SB3之上。

pip install imitation

然后你可以使用:

from imitation.algorithms.adversarial.gail import GAIL

这是他们的文档

© www.soinside.com 2019 - 2024. All rights reserved.