python 使用模拟学习和稳定基线预训练模型3

bhmjp9jg  于 2023-02-02  发布在  Python
关注(0)|答案(1)|浏览(170)

我一直在尝试找出一种使用稳定基线预训练模型的方法3。
在Stable-baseline(在Tensorflow 1.X上运行的版本)的原始文档中,这似乎是一项简单的任务:

from stable_baselines import PPO2

from stable_baselines.gail import ExpertDataset

dataset = ExpertDataset(expert_path='expert_cartpole.npz', traj_limitation=1, batch_size=128)

model = PPO2('MlpPolicy', 'CartPole-v1', verbose=1)

\# Pretrain the PPO2 model

model.pretrain(dataset, n_epochs=1000)

问题是,没有“从稳定基线***3***.gail导入Maven数据集”
基本上,我想要做的是我想要使用特定算法来创建.npz文件,以生成观察、奖励、动作,然后将其传递给RL代理。
我从这个文档中找到了原始代码:
https://readthedocs.org/projects/stable-baselines/downloads/pdf/master/

3htmauhk

3htmauhk1#

我也面临着这个问题,想做Maven轨迹演示,但正如我所读到的,在稳定基线3中没有“导入Maven数据集”(仍在开发中,可能需要在稳定基线3中的预训练模型中进行大量更改)。请让我知道是否有更新或替代方案解决这个问题。

相关问题