tensorflow A2C和稳定_基线3

pzfprimi 于 2023-03-09 发布在其他

关注(0)|答案(1)|浏览(147)

我尝试在第3点中使用GitHub（https://github.com/nicknochnack/Reinforcement-Learning-for-Trading-Custom-Signals/blob/main/Custom%20Signals.ipynb）中的repo代码：

model = A2C('MlpLstmPolicy', env, verbose=1)
model.learn(total_timesteps=1000000)

我在使用稳定基线时遇到了很多问题，所以我尝试使用稳定基线3，但我认为MlpLstmPolicy不起作用。ChatGPT建议将其更改为：

from stable_baselines3 import PPO
from stable_baselines3.common.vec_env import DummyVecEnv
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.callbacks import CheckpointCallback

env = make_vec_env('env', n_envs=4, seed=0)
env = DummyVecEnv([lambda: env])

model = PPO('MlpLstmPolicy', env, verbose=1)

但我得到这个错误：* * 错误：试图查找格式错误的环境ID：b'env '。（当前所有ID的格式都必须为^（？：[\w：-]+/）？（[\w：. -]+）-v（\d+）$。）**
我看到在第一个选项"model ="中使用了env。这就是我所做的。
我已经用我在代码中找到的所有其他东西更改了"env"，但没有任何效果。
任何帮助都将不胜感激。

tensorflow

来源：https://stackoverflow.com/questions/75646104/a2c-and-stable-baselines3