tensorflow A2C和稳定_基线3

pzfprimi  于 2023-03-09  发布在  其他
关注(0)|答案(1)|浏览(147)

我尝试在第3点中使用GitHub(https://github.com/nicknochnack/Reinforcement-Learning-for-Trading-Custom-Signals/blob/main/Custom%20Signals.ipynb)中的repo代码:

model = A2C('MlpLstmPolicy', env, verbose=1)
model.learn(total_timesteps=1000000)

我在使用稳定基线时遇到了很多问题,所以我尝试使用稳定基线3,但我认为MlpLstmPolicy不起作用。ChatGPT建议将其更改为:

from stable_baselines3 import PPO
from stable_baselines3.common.vec_env import DummyVecEnv
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.callbacks import CheckpointCallback

env = make_vec_env('env', n_envs=4, seed=0)
env = DummyVecEnv([lambda: env])

model = PPO('MlpLstmPolicy', env, verbose=1)

但我得到这个错误:* * 错误:试图查找格式错误的环境ID:b'env '。(当前所有ID的格式都必须为^(?:[\w:-]+/)?([\w:. -]+)-v(\d+)$。)**
我看到在第一个选项"model ="中使用了env。这就是我所做的。
我已经用我在代码中找到的所有其他东西更改了"env",但没有任何效果。
任何帮助都将不胜感激。

bvhaajcl

bvhaajcl1#

sb 3还不直接支持循环策略,但是你可以使用sb 3-contrib中的RecurrentPPO,我想这就是你想要的。

相关问题