我尝试在第3点中使用GitHub(https://github.com/nicknochnack/Reinforcement-Learning-for-Trading-Custom-Signals/blob/main/Custom%20Signals.ipynb)中的repo代码:
model = A2C('MlpLstmPolicy', env, verbose=1)
model.learn(total_timesteps=1000000)
我在使用稳定基线时遇到了很多问题,所以我尝试使用稳定基线3,但我认为MlpLstmPolicy不起作用。ChatGPT建议将其更改为:
from stable_baselines3 import PPO
from stable_baselines3.common.vec_env import DummyVecEnv
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.callbacks import CheckpointCallback
env = make_vec_env('env', n_envs=4, seed=0)
env = DummyVecEnv([lambda: env])
model = PPO('MlpLstmPolicy', env, verbose=1)
但我得到这个错误:* * 错误:试图查找格式错误的环境ID:b'env '。(当前所有ID的格式都必须为^(?:[\w:-]+/)?([\w:. -]+)-v(\d+)$。)**
我看到在第一个选项"model ="中使用了env。这就是我所做的。
我已经用我在代码中找到的所有其他东西更改了"env",但没有任何效果。
任何帮助都将不胜感激。
1条答案
按热度按时间bvhaajcl1#
sb 3还不直接支持循环策略,但是你可以使用sb 3-contrib中的
RecurrentPPO
,我想这就是你想要的。